2016年4月3日20:17:44
MapReduce程序开发中的FileInputFormat与TextInputFormat
作者:数据分析玩家
* which is then assigned to an individual {@link Mapper}.
FileInputFormat这个类先对输入文件进行逻辑上的划分,以64M为单位,将原始数据从逻辑上分割成若干个split,每个split切片对应一个Mapper任务
对于FileInputFormat这个类,我们需要注意:FileInputFormat这个类只划分比HDFS的block块大的文件,所以FileInputFormat划分的结果是这个文件或者是这个文件中的一部分.如果一个文件的大小比block块小,将不会被FileInputFormat这个类进行逻辑上的划分,此时每一个小文件都会当做一个split块并分配一个Mapper任务,导致效率低下.这也是Hadoop处理大文件的效率要比处理很多小文件的效率高的原因。
当FileInputFormat这个类将文件file切分成block块之后,TextInputFormat这个类随后将每个split块中的每行记录解析成一个一个的键值对,即<k1,v1>.
综上:我们可以简单理解为FileInputFormat这个类是将文件file切分成split块,而TextInputFormat这个类是负责将每一行记录解析为键值对<k1,v1>.
2016年4月3日21:13:05
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/38604.html