博客
关于我
运行一个Hadoop Job所需要指定的属性
阅读量:83 次
发布时间:2019-02-26

本文共 2210 字,大约阅读时间需要 7 分钟。

1、设置job的基础属性
[java] 
 
  1. Job job = new Job();  
  2. job.setJarByClass(***.class);  
  3. job.setJobName(“job name”);  
  4. job.setNumReduce(2);  
2、设置Map与Reudce的类
[java] 
 
  1. job.setMappgerClass(*.class);  
  2. job.setReduceClass(*.class);  

3、设置Job的输入输出格式

[java] 
 
  1. void    setInputFormatClass(Class<? extends InputFormat> cls)  
  2.   
  3. void    setOutputFormatClass(Class<? extends OutputFormat> cls)   

前者默认是TextInputFormat,后者是FileOutputFormat。

4、设置Job的输入输出路径

当输入输出是文件时,需要指定路径。

[java] 
 
  1. InputFormat:  
  2. static void    addInputPath(JobConf conf, Path path)  
  3.   
  4. FileOutputFormat:  
  5. static void    setOutputPath(Job job, Path outputDir)   
当输入格式是其它类型时,则需要指定相应的属性,如Gora的DataSource。

5、设置map与reduce的输出键值类型
主要有以下4个类
[java] 
 
  1. void    setOutputKeyClass(Class<?> theClass)  
  2.   
  3. void    setOutputValueClass(Class<?> theClass)  
  4.   
  5. void    setMapOutputKeyClass(Class<?> theClass)  
  6.   
  7. void    setMapOutputValueClass(Class<?> theClass)   
(1)前面2个方法设置整个job的输出,即reduce的输出。默认情况下,map的输出类型与reduce一致,若二者不一致,则需要通过后面2个方法来指定map的输出类型。
(2)关于输入类型的说明:reduce的输入类型由output的输出类型决定。map的输入类型由输入格式决定,如输入格式是FileInputFormat,则输入KV类型为LongWriterable与Text。
6、运行程序

job.waitForCompletion()。

见以下示例:

[java] 
 
  1. package org.jediael.hadoopdemo.maxtemperature;  
  2.   
  3. import org.apache.hadoop.fs.Path;  
  4. import org.apache.hadoop.io.IntWritable;  
  5. import org.apache.hadoop.io.Text;  
  6. import org.apache.hadoop.mapreduce.Job;  
  7. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
  8. import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
  9.   
  10. public class MaxTemperature {  
  11.     public static void main(String[] args) throws Exception {  
  12.         if (args.length != 2) {  
  13.             System.err  
  14.                     .println("Usage: MaxTemperature <input path> <output path>");  
  15.             System.exit(-1);  
  16.         }  
  17.         //1、设置job的基础属性  
  18.         Job job = new Job();  
  19.         job.setJarByClass(MaxTemperature.class);  
  20.         job.setJobName("Max temperature");  
  21.   
  22.         //2、设置Map与Reudce的类  
  23.         job.setMapperClass(MaxTemperatureMapper.class);  
  24.         job.setReducerClass(MaxTemperatureReducer.class);  
  25.           
  26.         //4、设置map与reduce的输出键值类型  
  27.         job.setOutputKeyClass(Text.class);  
  28.         job.setOutputValueClass(IntWritable.class);  
  29.           
  30.         //5、设置输入输出路径  
  31.         FileInputFormat.addInputPath(job, new Path(args[0]));  
  32.         FileOutputFormat.setOutputPath(job, new Path(args[1]));  
  33.           
  34.         //6、运行程序  
  35.         System.exit(job.waitForCompletion(true) ? 0 : 1);  
  36.     }  
  37. }  

版权声明:本文为博主原创文章,转载请注明来自http://blog.csdn.net/jediael_lu/ https://blog.csdn.net/jediael_lu/article/details/43416751
你可能感兴趣的文章
NHibernate学习[1]
查看>>
NHibernate异常:No persister for的解决办法
查看>>
Nhibernate的第一个实例
查看>>
NHibernate示例
查看>>
nid修改oracle11gR2数据库名
查看>>
NIFI1.21.0/NIFI1.22.0/NIFI1.24.0/NIFI1.26.0_2024-06-11最新版本安装_采用HTTP方式_搭建集群_实际操作---大数据之Nifi工作笔记0050
查看>>
NIFI1.21.0_java.net.SocketException:_Too many open files 打开的文件太多_实际操作---大数据之Nifi工作笔记0051
查看>>
NIFI1.21.0_Mysql到Mysql增量CDC同步中_日期类型_以及null数据同步处理补充---大数据之Nifi工作笔记0057
查看>>
NIFI1.21.0_Mysql到Mysql增量CDC同步中_补充_插入时如果目标表中已存在该数据则自动改为更新数据_Postgresql_Hbase也适用---大数据之Nifi工作笔记0058
查看>>
NIFI1.21.0_Mysql到Mysql增量CDC同步中_补充_更新时如果目标表中不存在记录就改为插入数据_Postgresql_Hbase也适用---大数据之Nifi工作笔记0059
查看>>
NIFI1.21.0_NIFI和hadoop蹦了_200G集群磁盘又满了_Jps看不到进程了_Unable to write in /tmp. Aborting----大数据之Nifi工作笔记0052
查看>>
NIFI1.21.0_Postgresql和Mysql同时指定库_指定多表_全量同步到Mysql数据库以及Hbase数据库中---大数据之Nifi工作笔记0060
查看>>
NIFI1.21.0最新版本安装_连接phoenix_单机版_Https登录_什么都没改换了最新版本的NIFI可以连接了_气人_实现插入数据到Hbase_实际操作---大数据之Nifi工作笔记0050
查看>>
NIFI1.21.0最新版本安装_配置使用HTTP登录_默认是用HTTPS登录的_Https登录需要输入用户名密码_HTTP不需要---大数据之Nifi工作笔记0051
查看>>
NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_增删改数据分发及删除数据实时同步_通过分页解决变更记录过大问题_02----大数据之Nifi工作笔记0054
查看>>
NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_增加修改实时同步_使用JsonPath及自定义Python脚本_03---大数据之Nifi工作笔记0055
查看>>
NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_插入修改删除增量数据实时同步_通过分页解决变更记录过大问题_01----大数据之Nifi工作笔记0053
查看>>
NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表或全表增量同步_实现指定整库同步_或指定数据表同步配置_04---大数据之Nifi工作笔记0056
查看>>
NIFI1.23.2_最新版_性能优化通用_技巧积累_使用NIFI表达式过滤表_随时更新---大数据之Nifi工作笔记0063
查看>>
NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_根据binlog实现update数据实时同步_实际操作05---大数据之Nifi工作笔记0044
查看>>