解决Map Reduce读取编码为UTF-8的文件文件时，第一条数据总出错的问题 - Semantic的技术博客 - ITeye博客

`

roufenghust

浏览: 25896 次
性别:
来自: 深圳

最近访客更多访客>>

a805617894a

qiangwushuang

fendo

melin

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

解决Map Reduce读取编码为UTF-8的文件文件时，第一条数据总出错的问题

博客分类：

Map Reduce
hadoop

阅读更多

hadoop涉及文件编码时，统一用UTF-8，但是当读取带有BOM的文件时，第一条数据由于包含BOM，hadoop并没有去掉，因此第一条数据处理结果总是出现误差，为了解决此问题，只需将BOM从map阶段去掉即可，如下代码：

protected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {
   byte[] bytes = value.getBytes();
   if(bytes!=null && bytes.length>2 && bytes[0]==(byte)0xEF && bytes[1]==(byte)0xBB && bytes[2]==(byte)0xBF){
	  value = new Text(Arrays.copyOfRange(bytes, 3, bytes.length)); // 去掉BOM
   }
...
}

分享到：

从今天起，做一个热爱分享的知识控 | hadoop解决中文输出乱码（二）

2013-04-13 17:47
浏览 759
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Map-Reduce数据分析: Hadoop Map-Reduce数据分析

mapstruct-1.1.0.Final-API文档-中文版.zip: 赠送jar包：mapstruct-1.1.0.Final.jar；赠送原API文档：mapstruct-1.1.0.Final-javadoc.jar；赠送源代码：mapstruct-1.1.0.Final-sources.jar；赠送Maven依赖信息文件：mapstruct-1.1.0.Final.pom；包含翻译后...

C-MAPSS/航天发动机/涡轮发动机数据集: C-MAPSS/航天发动机/涡轮发动机数据集包含FD001-FD004

release-1900、1911-x86、x64-gdal-3-2-0-mapserver-7-6-1.zip: release-1900、1911-x86、x64-gdal-3-2-0-mapserver-7-6-1.zip

Map-reduce: google三大核心技术之一，map reduce的论文

mapstruct-jdk8-1.2.0.Final-API文档-中文版.zip: 赠送jar包：mapstruct-jdk8-1.2.0.Final.jar；赠送原API文档：mapstruct-jdk8-1.2.0.Final-javadoc.jar；赠送源代码：mapstruct-jdk8-1.2.0.Final-sources.jar；赠送Maven依赖信息文件：mapstruct-jdk8-1.2.0....

1916-x64-gdal-3-3-0-mapserver-7-6-3.zip: 配置好java环境后，将上面的C:\Program Files\Java\1916-x64-gdal-3-3-0-mapserver-7-6-3\bin 拷贝到C:\Program Files\Java\jdk1.8.0_261\bin全部替换即可使用gdal

mapstruct-1.3.1.Final-API文档-中文版.zip: 赠送jar包：mapstruct-1.3.1.Final.jar；赠送原API文档：mapstruct-1.3.1.Final-javadoc.jar；赠送源代码：mapstruct-1.3.1.Final-sources.jar；赠送Maven依赖信息文件：mapstruct-1.3.1.Final.pom；包含翻译后...

mapstruct-jdk8-1.2.0.Final-API文档-中英对照版.zip: 赠送jar包：mapstruct-jdk8-1.2.0.Final.jar；赠送原API文档：mapstruct-jdk8-1.2.0.Final-javadoc.jar；赠送源代码：mapstruct-jdk8-1.2.0.Final-sources.jar；赠送Maven依赖信息文件：mapstruct-jdk8-1.2.0....

vue-baidu-map离线百度地图，并附带jar包免费下载百度瓦片数据: 1.vue-baidu-map在线地图代码不用改动，只用按照文档添加baidu-api.js和baidu-init.js，并在vue依赖包 node_modules文件找到，修改vue-baidu-map的 index.js文件就能完成离线配置 2.jar包可以免费下载百度地图瓦片...

release-1900-x64-gdal-3-0-4-mapserver-7-4-3.zip: 2020-07最新版jdal，包含所需lib和jar包，64位版本，32位也会同步上传，配合https://blog.csdn.net/weixin_43616450/article/details/107338337食用更佳

读取Excel文件将数据存入map集合: 一个读取Excel文档，将数据存入map集合的方法

Hive - A Warehousing Solution Over a Map-Reduce.pdf: Hadoop [3] is a popular open-source map-reduce im- plementation which is being used as an alternative to store and process extremely large data sets on commodity hard- ware. However, the map-reduce ...

release-1930-gdal-3-7-1-mapserver-8-0-1的32位可执行的文件和库文件: release-1930-gdal-3-7-1-mapserver-8-0-1的32位可执行的文件和库文件，下载自https://download.gisinternals.com

release-1930-x64-gdal-3-7-1-mapserver-8-0-1的64位可执行的文件和库文件: release-1930-x64-gdal-3-7-1-mapserver-8-0-1的64位可执行的文件和库文件，下载自https://download.gisinternals.com

使用Map-Reduce对大规模图进行排名和半监督分类: 《Ranking and Semi-supervised Classification on Large Scale Graphs Using Map-Reduce》原文及译文

3提取KPI数据(Map-Reduce).part2: 3提取KPI数据(Map-Reduce).part2

mapstruct-1.2.0.Final-API文档-中文版.zip: 赠送jar包：mapstruct-1.2.0.Final.jar；赠送原API文档：mapstruct-1.2.0.Final-javadoc.jar；赠送源代码：mapstruct-1.2.0.Final-sources.jar；赠送Maven依赖信息文件：mapstruct-1.2.0.Final.pom；包含翻译后...

小程序使用高德地图 map 导航路线规划 amap-wx.js 文件（amap-wx.js 从相关下载页面下载的 zip 文件: 小程序使用高德地图 map 导航路线规划（amap-wx.js 从相关下载页面下载的 zip 文件使用场景：uniapp和小程序使用高德地图（map）可以引用这个文件，getRegeo（获取当前地址），getDrivingRoute（驾车从开始位置到...

map-reduce详细: 讲述map-reduce的实现细节文档，讲述map-reduce的学习过程中遇到的问题记忆解决办法，是很好的学习文档。

Global site tag (gtag.js) - Google Analytics