HDFS文件内容追加(Append)

　　HDFS设计之处并不支持给文件追加内容，这样的设计是有其背景的（如果想了解更多关于HDFS的append的曲折实现，可以参考《File Appends in HDFS》：http://blog.cloudera.com/blog/2009/07/file-appends-in-hdfs/），但从HDFS2.x开始支持给文件追加内容，可以参见https://issues.apache.org/jira/browse/HADOOP-8230。可以再看看http://www.quora.com/HDFS/Is-HDFS-an-append-only-file-system-Then-how-do-people-modify-the-files-stored-on-HDFS。正如HADOOP-8230所述，只需要将hdfs-site.xml中的以下属性修改为true就行。

<property>
    <name>dfs.support.append</name>
    <value>true</value>
</property>

　　目前如何在命令行里面给HDFS文件中追加内容我还没找到相应的方法。但是，我们可以通过Hadoop提供的API实现文件内容追加，如何实现？这里我写了一个简单的测试程序：

package com.wyp;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;

import java.io.*;
import java.net.URI;

/**
 * blog: /
 * Date: 14-1-2
 * Time: 下午6:09
 */
public class AppendContent {
    public static void main(String[] args) {
        String hdfs_path = "hdfs://mycluster/home/wyp/wyp.txt";//文件路径
        Configuration conf = new Configuration();
        conf.setBoolean("dfs.support.append", true);

        String inpath = "/home/wyp/append.txt";
        FileSystem fs = null;
        try {
            fs = FileSystem.get(URI.create(hdfs_path), conf);
            //要追加的文件流，inpath为文件
            InputStream in = new 
                  BufferedInputStream(new FileInputStream(inpath));
            OutputStream out = fs.append(new Path(hdfs_path));
            IOUtils.copyBytes(in, out, 4096, true);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

将上面的代码打包成jar（这里我取名为hdfs.jar）文件，然后上传到机器中，比如我上传到我的home目录，在程序运行前，我们来看看HDFS中wyp.txt文件中的内容有什么

[wyp@iteblog ~]$ /home/q/hadoop-2.2.0/bin/hadoop fs   \
                                           -cat /home/wyp/wyp.txt
123456
[wyp@iteblog ~]$

好，我们再来看看/home/wyp/append.txt文件中的内容：

[wyp@iteblog ~]$ vim append.txt
wyp  append test

看完代码中所涉及到的两个文件之后，我们再运行hdfs.jar

[wyp@iteblog ~]$ /home/q/hadoop-2.2.0/bin/hadoop jar \
                                       hdfs.jar com.wyp.AppendContent

运行完之后，看看wyp.txt内容

[wyp@iteblog ~]$ /home/q/hadoop-2.2.0/bin/hadoop fs \
                                         -cat /home/wyp/wyp.txt
123456
wyp  append test

好了，wyp.txt文件已经追加了append.txt文件中的内容了。

本博客文章除特别声明，全部都是原创！
原创文章版权归过往记忆大数据（过往记忆）所有，未经许可不得转载。
本文链接: 【HDFS文件内容追加(Append)】（https://www.iteblog.com/archives/881.html）