• 2025年8月19日 星期二

H30222-《大数据应用技术》课程简易环境配置(VMware方法-hadoop和eclipse)

2 月 22, 2023

写在前面:本文教程图片和描述文字(除部分文字外)为李星海创作。配置均在实机进行。
本教程适用于【广州商学院】【2020级】【信息技术与工程学院】【计算机科学与技术(专升本)】【2022-2023学年第2学期】《大数据应用技术》课程环境。
参考资料:
Hadoop3.1.3安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04(16.04)
Ubuntu (Kylin) 16.04 换源阿里云_ubuntukylin源_Pou光明的博客-程序员宝宝

0.前置准备环境:将提供的软件安装包下载到本机,本教程中以放到D盘的【DSJSOFT】文件夹为例,如图1所示。

1.在VMware新建虚拟机,读取文件夹下的ubuntukylin安装镜像文件,如图2所示。

图2 在安装程序光盘映像文件中指定ISO路径

2.指定Linux全名,用户名,密码(密码为jk2005),如图3所示。

图3

3.指定安装大小,这里建议40G,如图4所示。

图4

4.确保网络适配器处于“NAT”模式,如图5所示。

图5

5.进入安装过程,此处等待20分钟左右,耐心等就好,会自动进入桌面,如图6所示。

图6 安装界面

6.完成安装之后,就显示了刚刚创建的账户,通过点击GZSXY进行登录,如图7-图8所示。

图7 登陆界面
图8输入密码界面

7.指定root账户密码,如图9所示。

图9 设置root密码为root

8.设置系统环境为中文,在终端输入指令 dpkg-reconfigure locales,使用tab切换到语言选项界面,找到en_us.utf-8 使用【空格】将*号取消。如图10所示。

图10

9.找到zh_cn.gbk 和zh_cn.utf-8,使用【空格】选中,如图11所示。

图11 增加中文文本选项

10.完成后,使用tab切换到<ok>,按【enter】,进入下一界面,使用↑↓找到【zh_cn.utf-8】按【enter】选中,如图12所示。

图12 配置中文界面

11.重启虚拟机,使配置生效

12.重启之后,在弹出的软件源更新提示选择【不更新】,同时为了配置方便,在文件夹命名选项选择【keep old names】。如图13所示

图13 重启之后配置界面

13.先使用【apt update】更新源,然后使用【apt install vim】安装vim编辑器,这里使用默认源,如图14所示。

图14 更新默认源和安装vim编辑器

14.完成vim编辑器的安装后,进行换源操作:输入【vim /etc/apt/source.list】,编辑源文件,将原有源使用【#】注释或者删除全部内容,然后将阿里云源粘贴到文件中。

deb http://mirrors.aliyun.com/ubuntu/ xenial main restricted universe multiverse 

deb http://mirrors.aliyun.com/ubuntu/ xenial-security main restricted universe multiverse 

deb http://mirrors.aliyun.com/ubuntu/ xenial-updates main restricted universe multiverse 

deb http://mirrors.aliyun.com/ubuntu/ xenial-backports main restricted universe multiverse 

15.对于14步的操作,完成后的源文件内容如图15所示。

图15 对UbuntuKylin换阿里云源

16.使用【apt update】命令更新源,然后输入【apt install ssh】安装ssh服务,如图16所示。

图16 安装ssh服务

17.添加hadoop用户,使用【useradd -m hadoop -s /bin/bash】完成新建hadoop用户,使用【passwd hadoop】设置密码,使用【adduser hadoop sudo】将其添加到管理员组,命令操作过程如图17所示。

图17 添加并配置hadoop用户

18.使用【su hadoop】或切换用户方式(推荐),切换到hadoop用户后,使用【ssh localhost】完成ssh初次启动,通过命令【cd ~/.ssh/】【ssh-keygen -t rsa】【cat ./id_rsa.pub >> ./authorized_keys】添加自动登录,如图18所示。

图18 配置ssh自动登录

19.通过【ifconfig】查看虚拟机IP地址。使用Xshell软件对其进行连接,配置界面如图19所示。

图19 通过xshell连接ubuntu

20.点击图19的【连接】按钮后,弹出用户名和密码,这里输入创建的hadoop用户及密码,如图20-21所示。

图20 设置登录用户名
图21 设置登录密码

21.如果输入内容都正确,则此时会连接上Ubuntu,终端显示为hadoop用户,如图22所示。

图22 成功通过xshell连接ssh

22.将图1中的【tar.gz】后缀复制到hadoop的家目录下,然后使用

  1. cd ~
  2. tar -zxf hadoop-3.1.3.tar.gz -C /usr/local
  3. cd /usr/local/
  4. mv ./hadoop-3.1.3/ ./hadoop
  5. chown -R hadoop ./hadoop

命令解压并配置hadoop,如图23所示。

图23 解压并配置hadoop

23.将目录切换到【/usr/lib】下,创建存放JDK的文件夹,返回主目录,解压JDK文件到存放JDK的文件夹下,命令组如下所示,操作过程如图24所示。

  1. cd /usr/lib
  2. mkdir jvm
  3. cd /home/hadoop
  4. tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm
图24 创建存放jdk的文件目录并解压jdk

24.使用【vim ./.bashrc】编辑bashrc文件,在头部空行增加如下内容,完成结果如图25所示。

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
图25 配置环境变量

25.使用source ~/.bashrc 编译文件,然后通过输入【java -version】查看java版本,如果之前的步骤都正确进行,可以显示java版本号,如图26所示。

图26 完成配置的JAVA环境

26.切换到hadoop目录,使用【./bin/hadoop version】查看hadoop版本,如果前面的步骤均正确配置,可以显示hadoop的版本号,如图27所示。

图27 hadoop版本号显示

27.通过运行grep实例,将 input 文件夹中的所有文件作为输入,筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数,最后输出结果到 output 文件夹中,如图28所示。

图28 测试用例

28.执行成功后显示dfsadmin出现了一次,如图29所示。

图29 测试用例完成后的显示结果

29.下面通过配置xml文件对Hadoop进行伪分布式配置

30.Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。使用命令【vim ./etc/hadoop/core-site.xml】修改配置文件 core-site.xml,修改结果如图30所示。

图30 修改后的core-site.xml文件

31.使用命令【vim ./etc/hadoop/hdfs-site.xml】修改文件,修改结果如图31所示。

图31 修改后的core-hdfs.xml文件

32.执行NameNode格式化,如图32所示。

图32 使用命令进行namenode格式化

33.使用命令【./sbin/start-dfs.sh】开启namenode和datanode守护进程,结果如图33所示。

图33 开启namenode和datanode守护进程

34.可以通过浏览器访问【http://虚拟机地址:9870】查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。如图34所示。

图34 通过浏览器查看namenode和datanode信息

35.要使用 HDFS,首先需要在 HDFS 中创建用户目录【./bin/hdfs dfs -mkdir -p /user/hadoop】,接着将 ./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中,即将 /usr/local/hadoop/etc/hadoop 复制到分布式文件系统中的 /user/hadoop/input 中。我们使用的是 hadoop 用户,并且已创建相应的用户目录 /user/hadoop ,因此在命令中就可以使用相对路径如 input,其对应的绝对路径就是 /user/hadoop/input【./bin/hdfs dfs -mkdir input 】【./bin/hdfs dfs -mkdir input】。复制完成后,可以通过【./bin/hdfs dfs -ls input】命令查看文件列表,命令过程如图35所示。

图35 配置HDFS

36.通过执行hadoop伪分布式运行,对结果再次进行验证,命令如下所示,结果如图36所示。

./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep input output ‘dfs[a-z.]+’

图36 再次查看运行结果

37.将结果取回本地的./output目录,并使用cat命令进行显示,操作过程和结果如图37所示。

图37 将结果取回本地目录

38.使用【./bin/hdfs dfs -rm -r output】  删除 output 文件夹,使用【./sbin/stop-dfs.sh】停止hadoop,使用【./sbin/start-dfs.sh】启动hadoop(要求在hadoop安装目录下),如图38所示。

图38 hadoop的停止和启动操作

39.此处开始是配置Eclipse,因为不算难,所以放到一起来写。

40.解压Eclipse软件,然后在刚刚创建的【/usr/lib/jvm/jdk1.8.0_162/jre/bin】目录下将jre复制到eclipse的jre中,双击eclipse齿轮图标,即可正常启动。如图39所示。

图39 配置并启动eclipse

环境配置可以提供技术支持和指导:

对于【计科2005】班:免费完全技术支持

对于【其他】班:免费有限技术支持或付费完全技术支持

Avatar photo

李星海

简介: 2025-今 浙江农林大学 | 2022-今 广州白蓝碗蛋科技有限公司 | 2022-2024 广州商学院 | 2019-2022 广东工贸职业技术学院 | 服务宗旨:心始至客,行亦致远。