从0开始的Hadoop之手写WordCount(Idea版)_idea hadoop wordcount-程序员宅基地

技术标签: mapreduce  hadoop  大数据  intellij idea  

本文将从Hadoop的下载安装开始,手写代码并运行出你的第一个MapReduce程序 —— WordCount。实验平台为Windows。

目录


1、Hadoop 的下载和安装

下载地址:https://hadoop.apache.org/releases.html

选择你要需要的版本,然后点击 Binary 下载。
在这里插入图片描述
小编使用的是长期支持版3.2.1,点[击进入以后会有下载链接,点击下载。下载的是.tar.gz的压缩文件,我们需要对其进行解压。


在这里插入图片描述
下载Hadoop在windows下的相关文件,注意:要与你的hadoop版本相同
通用下载地址:https://github.com/cdarlint/winutils
(2.6.0): https://github.com/steveloughran/winutils/tree/master/hadoop-2.6.0/bin
在这里插入图片描述
在这里插入图片描述

下载上图两个文件之后放到E:\hadoop-3.2.1\bin,其中E:\hadoop-3.2.1是hadoop的解压目录


之后是环境变量的配置。

在这里插入图片描述
ps:其他可选环境变量配置,在本实验中用不到

变量名 值 / 添加值
LD_LIBRARY_PATH %HADOOP_HOME%\lib\native
PATH 添加 %HADOOP_HOME%\sbin

验证
在cmd中输入hadoop version 看到如下的内容就表示配置成功了!在这里插入图片描述
注意:如果发现hadoop无法识别自己的用户名可以考虑创建一个新的用户来执行这行命令。


2、使用idea创建一个maven工程。

在这里插入图片描述
在这里插入图片描述
新建文件
Main.java
MapperTest.java
ReducerTest.java
log4j.properties
目录结构如下
在这里插入图片描述

3、修改文件内容。

3.1 pom.xml

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
        xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
        xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
   <modelVersion>4.0.0</modelVersion>

   <groupId>org.example</groupId>
   <artifactId>hadoop-wordcount</artifactId>
   <version>1.0-SNAPSHOT</version>

   <properties>
   	<!-- 这里填写的是你的jdk的版本 -->
       <maven.compiler.target>11</maven.compiler.target>
       <maven.compiler.source>11</maven.compiler.source>
   </properties>

   <dependencies>
       <dependency>
           <groupId>log4j</groupId>
           <artifactId>log4j</artifactId>
           <version>1.2.17</version>
       </dependency>
       <!-- 要注意3.2.1是我下载hadoop的版本,这个版本号要和hadoop对应 -->
       <dependency>
           <groupId>org.apache.hadoop</groupId>
           <artifactId>hadoop-client</artifactId>
           <version>3.2.1</version>
       </dependency>
       <dependency>
           <groupId>org.apache.hadoop</groupId>
           <artifactId>hadoop-common</artifactId>
           <version>3.2.1</version>
       </dependency>
       <dependency>
           <groupId>org.apache.hadoop</groupId>
           <artifactId>hadoop-hdfs</artifactId>
           <version>3.2.1</version>
       </dependency>
   </dependencies>
   <build>
       <finalName>hadoop_word_count</finalName>
       <plugins>
           <plugin>
               <groupId>org.apache.maven.plugins</groupId>
               <artifactId>maven-shade-plugin</artifactId>
               <version>3.2.0</version>
               <executions>
                   <execution>
                       <phase>package</phase>
                       <goals>
                           <goal>shade</goal>
                       </goals>
                       <configuration>
                           <transformers>
                               <transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
                                   <mainClass>wordconunt.Main</mainClass>
                               </transformer>
                           </transformers>
                       </configuration>
                   </execution>
               </executions>
           </plugin>
           <plugin>
               <groupId>org.apache.maven.plugins</groupId>
               <artifactId>maven-compiler-plugin</artifactId>
               <configuration>
               	<!-- 这里填写的是你的jdk的版本 -->
                   <source>11</source>
                   <target>11</target>
               </configuration>
           </plugin>
       </plugins>
   </build>
</project>

3.2 Main.java

package wordconunt;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class Main {
    
    public static void main(String[] args) throws IOException,
            IllegalArgumentException, ClassCastException, ClassNotFoundException, InterruptedException {
    
        // 加载配置类
        Configuration conf = new Configuration();
        // 获取Job对象
        Job job = Job.getInstance();

        // 设置jar存储的位置
        job.setJarByClass(Main.class);

        // 关联Mapper 和 reducer
        job.setMapperClass(MapperTest.class);
        job.setReducerClass(ReducerTest.class);

        // 设置Mapper输出阶段的数据键值的类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        
        // 设置最终输出阶段的数据键值的类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        // 设置输出和输入路径
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        //提交job
        boolean res = job.waitForCompletion(true);
        System.exit(res?0:1);
    }
}

3.3 MapperTest.java

package wordconunt;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class MapperTest extends Mapper<LongWritable, Text, Text, IntWritable> {
    
   Text wordText = new Text();
   IntWritable outValue = new IntWritable(1);

   @Override
   protected void map(LongWritable key, Text value, Mapper.Context context)
           throws IOException, InterruptedException {
    
       // 读取一行
       String line = value.toString();
       // 安装空格进分词
       String[] words = line.split(" ");//分词
       // 遍历每一个词
       for(String word : words) {
    
           wordText.set(word);
           //写出
           context.write(wordText, outValue);
       }
   }
}

3.4 ReducerTest.java

package wordconunt;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;


public class ReducerTest extends Reducer<Text, IntWritable, Text, IntWritable> {
    
   /**
    * key 输入的 键
    * value 输入的 值
    * context 上下文对象,用于输出键值对
    */
   @Override
   protected void reduce(Text key, Iterable<IntWritable> value,
                         Context context) throws IOException, InterruptedException {
    

       int sum=0;
       // 1 . 累计求和
       for (IntWritable number : value) {
    
           sum += number.get();
       }
       // 2 . 写出
       context.write(key, new IntWritable(sum));
   }
}

3.5 log4j.properties

# priority  :debug<info<warn<error
# 这里的顺序和后面的配置顺序要一致
log4j.rootLogger=stdout,debug
#console
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern= [%d{
    yyyy-MM-dd HH:mm}]:%p %l%m%n


#debug log
log4j.logger.debug=debug
log4j.appender.debug=org.apache.log4j.DailyRollingFileAppender
log4j.appender.debug.DatePattern='_'yyyy-MM-dd'.log'
log4j.appender.debug.File=./log/debug.log
log4j.appender.debug.Append=true
log4j.appender.debug.Threshold=DEBUG
log4j.appender.debug.layout=org.apache.log4j.PatternLayout
log4j.appender.debug.layout.ConversionPattern=%d{
    yyyy-MM-dd HH:mm:ss a} [Thread: %t][ Class:%c >> Method: %l ]%n%p:%m%n


4、设置输入输出文件

4.1 新建输入文件夹,并在其中新建一个文件,输入一些词,(如下,小编在自己的E盘新建了一个input文件夹作为输入,并且在里面建立了一个文件名为“in”的文件,输入了如下内容。

123 123
asd aa
123 hadoop
hdfs hdfs
name

在这里插入图片描述
4.2 设置输出输出变量。
点击绿色小三角运行,这里控制台会提示错误,不用管,只是获取一下运行时配置。
在这里插入图片描述
保存一下这个运行配置。
在这里插入图片描述
保存之后进行编辑,在程序参数里写入输入文件夹路径,和输出文件夹路径(注意:这里的输出路径是一个不存在的文件夹路径)
在这里插入图片描述
在这里插入图片描述
配置成功之后点击ok,就可以运行了
在这里插入图片描述

5、效果展示

在这里插入图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_49736959/article/details/109128886

智能推荐

MQ的概念和RabbitMQ知识点(无代码)-程序员宅基地

文章浏览阅读1.2w次,点赞7次,收藏76次。MQ全称是MessageQueue(消息队列),是保存消息在传输过程中的一种容器,既是存储消息的一种中间件。多是应用在分布式系统中进行通信的第三方中间件,如下图所示,发送方成为生产者,接收方称为消费者。............_mq

如何做好Bug分析-程序员宅基地

文章浏览阅读1.5k次,点赞47次,收藏18次。Bug分析是QA的一项主要技能,需要针对项目中遇到的经典问题进行分类分析, 直达问题本质。 并且能够给团队其他项目或者成员起到典型的借鉴作用。 当然也有一些非常经典的问题可以进行技术深挖, 以供参考。 个人认为比较典型的「Bug分析」是stackoverflow, 当然, 一个完善的bug分析库, 可以进行问题分类总结。 对于测试新人是有很大的帮助的。本质上, 在测试领域很多问题是可重现可整理可规避的。另外, bug分析本身是为了拓宽每个人的认知边界, 缩小团队间的乔哈里窗以达到最佳的合作状态。一个「好的B

H5020NL PULSE 50PIN千兆四口网络变压器 HQST H85001S建议IC配置型号_4口网络变压器-程序员宅基地

文章浏览阅读800次。HQST导读:PULSE普思是网络通讯行业中龙头企业之一,其中网络变压器产品大都由国内代工厂代为生产,H5020NLHX5020NL千兆四口网络变压器是普思公司经典老牌产品,相对整个市场用量不是很大,集中生产约一月20万颗左右……PULSE普思是网络通讯行业中龙头企业之一,其中网络变压器产品大都由国内代工厂代为生产,H5020NLHX5020NL千兆四口网络变压器是普思公司经典老牌产品,相对整个市场用量不是很大,集中生产约一月20万颗左右,……PULSE H5020NL千兆网络变压器对应HQS._4口网络变压器

D20 EME 支持2k MAC地址表-程序员宅基地

文章浏览阅读242次,点赞3次,收藏9次。交换机,壳体采用镀锌钢板,结构紧凑,支持八个百兆端口,可配置一至四个百兆光纤端口。两路冗余电源设计,支持4pin可插拔端子,交直流通用,同时提供电源防接保护及过压、欠压保护,极大提升产品工作的稳定性。2.支持两路冗余电源设计,4pin可插拔端子,支持12~36V宽电压输入,交直流通用,同时提供电源防反接保护及过压、欠压保护,极大提升产品工作的稳定性。4.-40℃~75℃工作温度,-40~85℃存储温度,在极端气象条件下也能安全运行。8.支持IEEE802.3,IEEE802.3u,IEEE802.3x。

阿昌教你如何使用通义灵码-程序员宅基地

文章浏览阅读946次。Hi,我是阿昌,今天教你如何使用通义灵码。_通义灵码

老版本NDK下载列表(Android官网)_ndk 老颁布-程序员宅基地

文章浏览阅读2.3w次。我们在开发或编译旧版本NDK项目时,需要使用一些老版本的NDK,在这里提供了旧版NDK的列表及下载链接_ndk 老颁布

随便推点

网关、安全网关?与防火墙的区别(2),网络安全多线程断点续传-程序员宅基地

文章浏览阅读640次,点赞6次,收藏18次。网关是一个大的概念,没有特指是什么设备,很多设备都可以做网关,普通的PC机也能做,常用的网关设备是路由器。网关的作用主要是用来连接两个不同的网络,比如可以连接两个IP地址不相同的网络,或连接两个操作系统不同的网络,如WINDOWS与LINUX互连,或连接两个网络协议不同的网络,如TCP/IP与IPX.或拓扑结构不同的网络,如以太网和令牌环网。总之网关是一种中间媒介。而防火墙也可以做网关,但它的主要做用只是用来防病毒或防黑客,网关只算是防火墙的一个功能。网关与防火墙的区别。

解决:ModuleNotFoundError: No module named ‘pymysql’_modulenotfounderror: no module named 'pymysql-程序员宅基地

文章浏览阅读4.1k次,点赞42次,收藏34次。背景在使用之前的代码时,报错: Traceback (most recent call last): File "xxx", line xx, in import pymysql ModuleNotFoundError: No module named 'pymysql'翻译:```追溯(最近一次通话):文件“xxx”,第xx行,在导入pymysqlModuleNotFoundError:没有名为“pymysql”的模块```原因 ......_modulenotfounderror: no module named 'pymysql

android读取生成excel,Android创建与读取Excel-程序员宅基地

文章浏览阅读275次。1 import java.io.File;23 import java.io.IOException;45 import java.util.Locale;6789 import jxl.CellView;1011 import jxl.Workbook;1213 import jxl.WorkbookSettings;1415 import jxl.format.UnderlineStyle;..._android excel生成读取类

VS2015离线安装 安装包损坏或丢失_vs2015离线版csdn-程序员宅基地

文章浏览阅读4.3w次,点赞16次,收藏126次。1、去微软官网下载完成ISO镜像,最好不要在线安装,打开官方链接 https://www.visualstudio.com/zh-cn/downloads/download-visual-studio-vs.aspx按下图操作:2、用虚拟光驱加载,或者直接右键解压。在安装前,先安装两个证书。亲测,安装后,减少了很多“安装包损坏或丢失”的现象。两证书下载地址链接: https:/..._vs2015离线版csdn

解决vue中安装postcss-pxtorem插件,报错“ Error: PostCSS plugin postcss-pxtorem requires PostCSS 8.”_error: postcss plugin postcss-import requires post-程序员宅基地

文章浏览阅读2k次,点赞4次,收藏3次。目前 postcss-pxtorem 版本最高6.0.0,报这个错是因为插件版本太高,降成5.1.1可解决这个报错解决方法:分两步1.执行npm uninstall post-pxtorem2.执行npm i [email protected]_error: postcss plugin postcss-import requires postcss 8.

Linux-ARM开发_linux arm开发-程序员宅基地

文章浏览阅读787次。Linux-ARM开发_linux arm开发