Hadoop控制输出文件命名

2016-03-31 16:26 6 1 收藏

最近很多朋友喜欢上iphone,但是大家却不知道如何去做,别担心有图老师给你解答,史上最全最棒的详细解说让你一看就懂。

【 tulaoshi.com - 服务器 】

Hadoop控制输出文件命名

   在一般情况下,Hadoop 每一个 Reducer 产生一个输出文件,文件以

  part-r-00000、part-r-00001 的方式进行命名。如果需要人为的控制输出文件的命

  名或者每一个 Reducer 需要写出多个输出文件时,可以采用 MultipleOutputs 类来

  完成。MultipleOutputs 采用输出记录的键值对(output Key 和 output Value)或者

  任意字符串来生成输出文件的名字,文件一般以 name-r-nnnnn 的格式进行命名,

  其中 name 是程序设置的任意名字;nnnnn 表示分区号。

  MultipleOutputs 的使用方式 的使用方式: :: :

  想要使用 MultipeOutputs,需要完成以下四个步骤:

  1. 在 Reducer 中声明 MultipleOutputs 的变量

  private MultipleOutputs

  2. 在 Reducer 的 setup 函数中进行 MultipleOutputs 的初始化

  protected void setup(Context context)throws IOException, InterruptedException {

  multipleOutputs = new MultipleOutputs

  }

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)

  3. 在 reduce 函数中进行输出控制

  protected void reduce(Text key, Iterable values, Context context)throws IOException,

  InterruptedException {

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)

  for (Text value : values) {

  multipleOutputs.write(NullWritable.get(), value, key.toString());

  }

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)

  }

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)

  4. 在 cleanup 函数中关闭输出 MultipleOutputs

  protected void cleanup(Context context)throws IOException, InterruptedException {

  multipleOutputs.close();

  }

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)

  注意:multipleOutputs.write(key, value, baseOutputPath)方法的第三个函数表明了该输出所在的目录(相对于用户指定的输出目录)。如果baseOutputPath不包含文件分隔符/,那么输出的文件格式为baseOutputPath-r-nnnnn(name-r-nnnnn);如果包含文件分隔符/,例如baseOutputPath=029070-99999/1901/part,那么输出文件则为

Hadoop控制输出文件命名 图老师

来源:https://www.tulaoshi.com/n/20160331/2052466.html

延伸阅读
标签: 电脑入门
在我们的日常使用过程中,有时我们需要对某些文件进行重命名,以更好的去分别它们。对于Windows系统来说,重命名是很简单的。不过有一部分MAC新手用户,却对MAC系统如何重命名文件感到一头雾水。今天图老师小编就给大家介绍一下MAC下如何重命名文件。 方法很简单,图老师小编告诉你只需要选中你的文件夹,摁下回车(Enter return)即可以重命...
标签: 电脑入门
文件包含那几个部分,比如我们新建一个文件,他包括文件名和未见后缀名,后缀名也就是所谓的扩展名。一般后缀名是由3-4个字母组成的,比如我在word上写了一篇关于学习的文章,那可以命名文件的文件名前面为学习相关的词语,然后保存为后缀名doc的格式。这个文件的文件名就是学习.doc了。自动保存为word文件了。文件的命名规则是文件名不能超过2...
标签: 服务器
Hadoop是什么   Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算. Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算. 数据在Hadoop中处理的流程可以简...
标签: Web开发
写一个动态生成Properties(log4j.properties加载到内存中的形式)的类,指定,可实现动态修改任何东西! ====================== 目录不可以创建,但是log文件是自动创建得呢 log4j.appender.R=org.apache.log4j.RollingFileAppender log4j.appender.R.File=C:\bea\user_projects\domain\log ============================== 你可以将log4j...
Win7系统如何多文件命名   第一步、文件中选中你要按数字命名的文件,按"Ctrl+A或按住"Ctrl然后用鼠标点击想修改的文件。 第二步、选中后按F2或者在选中的文件上右键重命名即可,各个文件结尾将以XX数字.jpg的形式区分。 Win7系统IE11浏览器降级教程   喜欢尝鲜的Win7小伙伴们发现升级了IE11后,又再...

经验教程

41

收藏

90
微博分享 QQ分享 QQ空间 手机页面 收藏网站 回到头部