H30222-《大数据应用技术》课程简易环境配置(VMware方法-hadoop和eclipse)

写在前面：本文教程图片和描述文字（除部分文字外）为李星海创作。配置均在实机进行。
本教程适用于【广州商学院】【2020级】【信息技术与工程学院】【计算机科学与技术（专升本）】【2022-2023学年第2学期】《大数据应用技术》课程环境。
参考资料：
Hadoop3.1.3安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04(16.04)
Ubuntu (Kylin) 16.04 换源阿里云_ubuntukylin源_Pou光明的博客-程序员宝宝

0.前置准备环境：将提供的软件安装包下载到本机，本教程中以放到D盘的【DSJSOFT】文件夹为例，如图1所示。

1.在VMware新建虚拟机，读取文件夹下的ubuntukylin安装镜像文件，如图2所示。

2.指定Linux全名，用户名，密码（密码为jk2005），如图3所示。

3.指定安装大小，这里建议40G，如图4所示。

4.确保网络适配器处于“NAT”模式，如图5所示。

5.进入安装过程，此处等待20分钟左右，耐心等就好，会自动进入桌面，如图6所示。

6.完成安装之后，就显示了刚刚创建的账户，通过点击GZSXY进行登录，如图7-图8所示。

7.指定root账户密码，如图9所示。

8.设置系统环境为中文，在终端输入指令 dpkg-reconfigure locales，使用tab切换到语言选项界面，找到en_us.utf-8 使用【空格】将*号取消。如图10所示。

9.找到zh_cn.gbk 和zh_cn.utf-8，使用【空格】选中，如图11所示。

10.完成后，使用tab切换到<ok>，按【enter】，进入下一界面，使用↑↓找到【zh_cn.utf-8】按【enter】选中，如图12所示。

11.重启虚拟机，使配置生效

12.重启之后，在弹出的软件源更新提示选择【不更新】，同时为了配置方便，在文件夹命名选项选择【keep old names】。如图13所示

13.先使用【apt update】更新源，然后使用【apt install vim】安装vim编辑器，这里使用默认源，如图14所示。

14.完成vim编辑器的安装后，进行换源操作：输入【vim /etc/apt/source.list】，编辑源文件，将原有源使用【#】注释或者删除全部内容，然后将阿里云源粘贴到文件中。

deb http://mirrors.aliyun.com/ubuntu/ xenial main restricted universe multiverse

deb http://mirrors.aliyun.com/ubuntu/ xenial-security main restricted universe multiverse

deb http://mirrors.aliyun.com/ubuntu/ xenial-updates main restricted universe multiverse

deb http://mirrors.aliyun.com/ubuntu/ xenial-backports main restricted universe multiverse

15.对于14步的操作，完成后的源文件内容如图15所示。

16.使用【apt update】命令更新源，然后输入【apt install ssh】安装ssh服务，如图16所示。

17.添加hadoop用户，使用【useradd -m hadoop -s /bin/bash】完成新建hadoop用户，使用【passwd hadoop】设置密码，使用【adduser hadoop sudo】将其添加到管理员组，命令操作过程如图17所示。

18.使用【su hadoop】或切换用户方式（推荐），切换到hadoop用户后，使用【ssh localhost】完成ssh初次启动，通过命令【cd ~/.ssh/】【ssh-keygen -t rsa】【cat ./id_rsa.pub >> ./authorized_keys】添加自动登录，如图18所示。

19.通过【ifconfig】查看虚拟机IP地址。使用Xshell软件对其进行连接，配置界面如图19所示。

20.点击图19的【连接】按钮后，弹出用户名和密码，这里输入创建的hadoop用户及密码，如图20-21所示。

21.如果输入内容都正确，则此时会连接上Ubuntu，终端显示为hadoop用户，如图22所示。

22.将图1中的【tar.gz】后缀复制到hadoop的家目录下，然后使用

cd ~
tar -zxf hadoop-3.1.3.tar.gz -C /usr/local
cd /usr/local/
mv ./hadoop-3.1.3/ ./hadoop
chown -R hadoop ./hadoop

命令解压并配置hadoop，如图23所示。

23.将目录切换到【/usr/lib】下，创建存放JDK的文件夹，返回主目录，解压JDK文件到存放JDK的文件夹下，命令组如下所示，操作过程如图24所示。

cd /usr/lib
mkdir jvm
cd /home/hadoop
tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm

24.使用【vim ./.bashrc】编辑bashrc文件,在头部空行增加如下内容，完成结果如图25所示。

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

25.使用source ~/.bashrc 编译文件，然后通过输入【java -version】查看java版本，如果之前的步骤都正确进行，可以显示java版本号，如图26所示。

26.切换到hadoop目录，使用【./bin/hadoop version】查看hadoop版本，如果前面的步骤均正确配置，可以显示hadoop的版本号，如图27所示。

27.通过运行grep实例，将 input 文件夹中的所有文件作为输入，筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数，最后输出结果到 output 文件夹中，如图28所示。

28.执行成功后显示dfsadmin出现了一次，如图29所示。

29.下面通过配置xml文件对Hadoop进行伪分布式配置

30.Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中，伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式，每个配置以声明 property 的 name 和 value 的方式来实现。使用命令【vim ./etc/hadoop/core-site.xml】修改配置文件 core-site.xml，修改结果如图30所示。

31.使用命令【vim ./etc/hadoop/hdfs-site.xml】修改文件，修改结果如图31所示。

32.执行NameNode格式化，如图32所示。

33.使用命令【./sbin/start-dfs.sh】开启namenode和datanode守护进程，结果如图33所示。

图33 开启namenode和datanode守护进程

34.可以通过浏览器访问【http://虚拟机地址:9870】查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件。如图34所示。

35.要使用 HDFS，首先需要在 HDFS 中创建用户目录【./bin/hdfs dfs -mkdir -p /user/hadoop】，接着将 ./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中，即将 /usr/local/hadoop/etc/hadoop 复制到分布式文件系统中的 /user/hadoop/input 中。我们使用的是 hadoop 用户，并且已创建相应的用户目录 /user/hadoop ，因此在命令中就可以使用相对路径如 input，其对应的绝对路径就是 /user/hadoop/input【./bin/hdfs dfs -mkdir input 】【./bin/hdfs dfs -mkdir input】。复制完成后，可以通过【./bin/hdfs dfs -ls input】命令查看文件列表，命令过程如图35所示。