hadoop解决中文输出乱码（二）

roufenghust

浏览: 25963 次
性别:
来自: 深圳

最近访客更多访客>>

a805617894a

qiangwushuang

fendo

melin

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop
Map Reduce

hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式，有很多软件只能靠文件的BOM才能成够识别编码为UTF-8的文件，因此当用此类软件打开文件时，显示的是乱码。为了能够正常显示文件内容，在输出内容到文件内之前，先写入BOM（0xEFBBBF）即可。
Map Reduce运行的结果是一些列文件，通过使用如下函数将输出文件归并到一个文件中：

org.apache.hadoop.fs.FileUtil.copyMerge(FileSystem srcFS, Path srcDir, FileSystem dstFS, Path dstFile, boolean deleteSource, Configuration conf, String addString)

其内的代码如下：

/** Copy all files in a directory to one output file (merge). */
  public static boolean copyMerge(FileSystem srcFS, Path srcDir, 
                                  FileSystem dstFS, Path dstFile, 
                                  boolean deleteSource,
                                  Configuration conf, String addString) throws IOException {
    dstFile = checkDest(srcDir.getName(), dstFS, dstFile, false);

    if (!srcFS.getFileStatus(srcDir).isDirectory())
      return false;
   
    OutputStream out = dstFS.create(dstFile);
    
    try {
      FileStatus contents[] = srcFS.listStatus(srcDir);
      Arrays.sort(contents);
      for (int i = 0; i < contents.length; i++) {
        if (contents[i].isFile()) {
          InputStream in = srcFS.open(contents[i].getPath());
          try {
            IOUtils.copyBytes(in, out, conf, false);
            if (addString!=null)
              out.write(addString.getBytes("UTF-8"));
                
          } finally {
            in.close();
          } 
        }
      }
    } finally {
      out.close();
    }
    

    if (deleteSource) {
      return srcFS.delete(srcDir, true);
    } else {
      return true;
    }
  }

在第12行加入如下代码即可完成对UTF-8 BOM的写入：

out.write(new byte[]{(byte)0xEF,(byte)0xBB,(byte)0xBF});

最终的结果为：

/** Copy all files in a directory to one output file (merge). */
  public static boolean copyMerge(FileSystem srcFS, Path srcDir, 
                                  FileSystem dstFS, Path dstFile, 
                                  boolean deleteSource,
                                  Configuration conf, String addString) throws IOException {
    dstFile = checkDest(srcDir.getName(), dstFS, dstFile, false);

    if (!srcFS.getFileStatus(srcDir).isDirectory())
      return false;
   
    OutputStream out = dstFS.create(dstFile);
    out.write(new byte[]{(byte)0xEF,(byte)0xBB,(byte)0xBF}); // 写入BOM
    try {
      FileStatus contents[] = srcFS.listStatus(srcDir);
      Arrays.sort(contents);
      for (int i = 0; i < contents.length; i++) {
        if (contents[i].isFile()) {
          InputStream in = srcFS.open(contents[i].getPath());
          try {
            IOUtils.copyBytes(in, out, conf, false);
            if (addString!=null)
              out.write(addString.getBytes("UTF-8"));
                
          } finally {
            in.close();
          } 
        }
      }
    } finally {
      out.close();
    }
    

    if (deleteSource) {
      return srcFS.delete(srcDir, true);
    } else {
      return true;
    }
  }

分享到：

解决Map Reduce读取编码为UTF-8的文件文件 ... | hadoop解决中文输出乱码

2013-04-13 17:37
浏览 2150
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop解决中文输出乱码（二）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop解决中文输出乱码（二）

评论

发表评论

相关推荐

下一代 Hadoop YARN 简介

解决Map Reduce读取编码为UTF-8的文件文件时，第一条数据总出错的问题

hadoop解决中文输出乱码

最近访客更多访客>>