MapReduce程序开发中的FileInputFormat与TextInputFormat

编程小号 • 2023-06-06 07:30 • 未分类

2016年4月3日20:17:44

作者：数据分析玩家

在MapReduce程序的开发过程中，往往需要用到FileInputFormat与TextInputFormat，但是这两个类究竟是用来做什么的，在源代码的追踪过程中，我们会发现TextInputFormat这个类继承自FileInputFormat，FileInputFormat这个类继承自InputFormat，而在InputFormat的源代码中：

* Split-up the input file(s) into logical {@link InputSplit}s, each of
* which is then assigned to an individual {@link Mapper}.

通过这段源代码：我们可以大致知道：InputFormat这个类会将文件file按照逻辑进行划分，划分成的每一个split切片将会被分配给一个Mapper任务，而在MapReduce的原理运行中：

我们可以发现确实是这样的，文件先被切分成split块，而后每一个split切片对应一个Mapper任务

下面：我们将对FileInputFormat与TextInputFormat这两个类的具体功能进行阐述

FileInputFormat这个类先对输入文件进行逻辑上的划分,以64M为单位,将原始数据从逻辑上分割成若干个split,每个split切片对应一个Mapper任务

对于FileInputFormat这个类，我们需要注意：FileInputFormat这个类只划分比HDFS的block块大的文件,所以FileInputFormat划分的结果是这个文件或者是这个文件中的一部分.如果一个文件的大小比block块小,将不会被FileInputFormat这个类进行逻辑上的划分，此时每一个小文件都会当做一个split块并分配一个Mapper任务,导致效率低下.这也是Hadoop处理大文件的效率要比处理很多小文件的效率高的原因。

当FileInputFormat这个类将文件file切分成block块之后，TextInputFormat这个类随后将每个split块中的每行记录解析成一个一个的键值对，即<k1,v1>.