您现在的位置是:首页» windows系统» fileinputformat是什么,fileinputformat

fileinputformat是什么,fileinputformat

2023-10-11 05:03:13
今天小编为大家分享Windows系统下载、Windows系统教程、windows相关应用程序的文章,希望能够帮助到大家!HDFS存储系统中,为了存储引出块的概念,块是存储的最小单位,HDFS上的文件都是以块为单位存储的。块的大小一般为64MB或128MB,块的大小有可能会变得更大。Hadoop在提交作业时,要提交的作业

今天小编为大家分享Windows系统下载、Windows系统教程、windows相关应用程序的文章,希望能够帮助到大家!

HDFS存储系统中,为了存储引出块的概念,块是存储的最小单位,HDFS上的文件都是以块为单位存储的。块的大小一般为64MB或128MB,块的大小有可能会变得更大。

Hadoop在提交作业时,要提交的作业需要进行分片,以达到分而治之的目的,分片操作是根据源文件的情况按照规则划分一系列的InputSplit,每个分片一般有一个Mapper进行处理,所谓的分片只是逻辑上的分片并不需要进行物理上的划分。具体的分片细节由InputSplitFormat 指定,可以调用方法 long splitSize=computeSplitSize(goalSize,minSize,blockSize);以获取分片大小。computeSplitSize 方法返回的大小是 Math.max(minSize,Math.min(goalSize,blockSize));。

其中 goalSize 为输入文件的大小/“配置中定义的 mapred.map.tasks”值,minSize 为mapred.min.split.size,blockSize为128MB,所以,这个算式为取分片大小不大于block,并且不小于在mapred.min.split.size配置中定义的最小Size。当某个分块分成均等的若干分片时,会有最后一个分片大小小于定义的分片大小,则该分片独立成为一个分片。

wWw.Xtw.com.Cn系统网专业应用软件下载教程,免费windows10系统,win11,办公软件,OA办公系统,OA软件,办公自动化软件,开源系统,移动办公软件等信息,解决一体化的办公方案。

免责声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。内容仅供参考使用,不准确地方联系删除处理!

联系邮箱:773537036@qq.com

标签: fileinputformat