在Hadoop中处理输入的CSV文件

在Hadoop中，InputFormat类用来生成可供Mapper处理的<key, value>键值对。当数据传送给Mapper时，Mapper会将输入分片传送到InputFormat上，InputFormat调用getRecordReader()方法生成RecordReader，RecordReader再创建可供map函数处理的键值对<K1, V1>。

Hadoop预定义了多种方法将不同类型的输入数据转化为map能够处理的键值对。比如，TextInputFormat，Hadoop中默认的输入方法，会将每行数据生成一条记录，其中key值为每条记录在分片中的字节偏移量，value则为每行的内容。

在Hadoop预定义的InputFormat中，并没有处理CSV文件的方法。CSV文件的本质其实是用逗号分隔开的文本文件。一种很直观的处理方法是：将CSV文件作为文本文件处理，使用TextInputFormat将文件按行传入map函数，在map函数中再按照CSV文件的格式进行处理。但这样很容易将数据格式的处理逻辑与业务处理逻辑混淆在一起，并且出现很多copy-and-pasted的代码。

实际上，可以写一个自己的InputFormat以及RecordReader类，专门用来处理CSV文件的输入，直接传递给map函数解析后的数据。

1 数据结构

我们传递给map函数一个ArrayWritable（A Writable for arrays containing instances of a class），元素类型为Text，即CSV文件每一行各个字段的数据。数据结构如下：

代码1：TextArrayWritable.java

public class TextArrayWritable extends ArrayWritable {
    public TextArrayWritable() {
        super(Text.class);
    }
public TextArrayWritable(Text[] strings) {
    super(Text.class, strings);
}

}

2 CSVInputFormat

FileInputFormat是所有使用文件作为其数据源的InputFormat实现的基类。它提供了两个功能：一是定义哪些文件包含在一个作业的输入中，另一个是为输入文件生成分片（Input Splits）。而把分片分割成记录的事情交由其子类来完成。所以CSVInputFormat类的实现上，同样是继承InputFormat类，并只需要简单的重写createRecordReader和isSplitable即可。

代码2：CSVInputFormat.java

public class CSVInputFormat extends FileInputFormat<LongWritable, TextArrayWritable> {
    public static final String CSV_TOKEN_SEPARATOR_CONFIG = "csvinputformat.token.delimiter";
@Override
protected boolean isSplitable(JobContext context, Path filename) {
    CompressionCodec codec = new CompressionCodecFactory(context.getConfiguration()).getCodec(filename);

    return codec == null;
}

@Override
public RecordReader&lt;LongWritable, TextArrayWritable&gt; createRecordReader(
    InputSplit split, TaskAttemptContext context)
    throws IOException, InterruptedException {
    String csvDelimiter = context.getConfiguration()
                                 .get(CSV_TOKEN_SEPARATOR_CONFIG);
    Character separator = null;

    if ((csvDelimiter != null) &amp;&amp; (csvDelimiter.length() == 1)) {
        separator = csvDelimiter.charAt(0);
    }

    return new CSVRecordReader(separator);
}

}

其中csvinputformat.token.delimiter是可在配置文件中配置的CSV输入文件分隔符，createRecordReader完成的工作只是从配置文件中得到分隔符，调用真正对CSV文件分片进行处理，并生成键值对的CSVRecordReader函数，并返回RecordReader对象。

3 CSVRecordReader

对于CSVRecordReader，要实现的功能无非就是将CSV文件中每一行的各字段提取出来，并将各字段作为TextArrayWritable类型的数据结构传递给map函数。

在Hadoop中有一个LineRecordReader类，它将文本文件每一行的内容作为值返回，类型为Text。所以可以直接在CSVRecordReader中使用LineRecordReader，将LineRecordReader返回的每一行再次进行处理。在CSV文件的处理上，这里用到了OpenCSV对CSV文件的每一行进行解析，具体可参见这里。

下面是CSVRecordReader的实现代码。除了CSV文件的解析、nextKeyValue()方法和getCurrentValue()方法外，大部分方法都直接调用LineRecordReader实例的相应方法。毕竟我们是踩在巨人的肩膀上继续前进嘛。O(∩_∩)O~

代码3：CSVRecordReader.java

public class CSVRecordReader extends RecordReader<LongWritable, TextArrayWritable> {
    private LineRecordReader lineReader;
    private TextArrayWritable value;
    private CSVParser parser;
// 新建CSVParser实例，用来解析每一行CSV文件的每一行
public CSVRecordReader(Character delimiter) {
    this.lineReader = new LineRecordReader();

    if (delimiter == null) {
        this.parser = new CSVParser();
    } else {
        this.parser = new CSVParser(delimiter);
    }
}

// 调用LineRecordReader的初始化方法，寻找分片的开始位置
@Override
public void initialize(InputSplit split, TaskAttemptContext context)
    throws IOException, InterruptedException {
    lineReader.initialize(split, context);
}

// 使用LineRecordReader来得到下一条记录（即下一行）。
// 如果到了分片（Input Split）的尾部，nextKeyValue将返回NULL
@Override
public boolean nextKeyValue() throws IOException, InterruptedException {
    if (lineReader.nextKeyValue()) {
        //如果有新记录，则进行处理
        loadCSV();

        return true;
    } else {
        value = null;

        return false;
    }
}

@Override
public LongWritable getCurrentKey()
    throws IOException, InterruptedException {
    return lineReader.getCurrentKey();
}

@Override
public TextArrayWritable getCurrentValue()
    throws IOException, InterruptedException {
    return value;
}

@Override
public float getProgress() throws IOException, InterruptedException {
    return lineReader.getProgress();
}

@Override
public void close() throws IOException {
    lineReader.close();
}

// 对CSV文件的每一行进行处理
private void loadCSV() throws IOException {
    String line = lineReader.getCurrentValue().toString();

    // 通过OpenCSV将解析每一行的各字段
    String[] tokens = parser.parseLine(line);
    value = new TextArrayWritable(convert(tokens));
}

// 将字符串数组批量处理为Text数组
private Text[] convert(String[] tokens) {
    Text[] t = new Text[tokens.length];

    for (int i = 0; i &lt; t.length; i++) {
        t[i] = new Text(tokens[i]);
    }

    return t;
}

}

4 简单的应用

用于处理CSV文件输入的InputFormat已经写完了，现在构造一个简单的应用场景，来试验下这个CSVInputFormat。

假设有这样一些数据，每一列第一个字段为一个标识，后面为随机产生的数字，标识各不相同，求每一行标识后的数字之和并输出，输出格式为：每一行为标识和数字和。

由于标识没有重复，并且逻辑比较简单，这里只写一个Mapper即可，不需要Reducer。

代码4：CSVMapper.java

public class CSVMapper extends Mapper<LongWritable, TextArrayWritable, Text, IntWritable> {
    @Override
    protected void map(LongWritable key, TextArrayWritable value,
        Context context) throws IOException, InterruptedException {
        String[] values = value.toStrings();
        int sum = 0;
        Text resultKey = new Text(values[0]);
    for (int i = 1; i &lt; values.length; i++) {
        sum = sum + Integer.valueOf(values[i].trim());
    }

    IntWritable resultValue = new IntWritable(sum);
    context.write(resultKey, resultValue);
}

}

在作业的提交部分，由于没有Reducer，所以将ReduceTask设置为了0

代码5：JustRun.java

public class JustRun extends Configured implements Tool {
    @Override
    public int run(String[] args) throws Exception {
        Configuration conf = new Configuration();
    Job job = new Job(conf);
    job.setJobName("CSVTest");
    job.setJarByClass(JustRun.class);

    job.setMapperClass(CSVMapper.class);

    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    job.setInputFormatClass(CSVInputFormat.class);

    job.setNumReduceTasks(0);

    FileInputFormat.setInputPaths(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));

    return job.waitForCompletion(true) ? 0 : 1;
}

public static void main(String[] args) throws Exception {
    int ret = ToolRunner.run(new JustRun(), args);
    System.exit(ret);
}

}

执行完毕后，输出如下，跟预想是一致的。

好了，这就是利用InputFormat对CSV文件的处理过程。除了CSV文件，还可根据处理数据的类型，写出更多的InputFormat。同时，我们还可以利用OutputFormat输出需要的格式。

FSDirectory 详解

简介 Namenode 最重要的两个功能之一就是维护整个文件系统的目录树（即命名空间 namesystem）。 HDFS 文件系统的命名空间（namespace），也就是以“/”为根的整个目录树，是通过 FSDirectory 类来管理的。 FSNamesystem 也提供了管理目录树结构的方法。 FSName ..

Yarn 作业启动源码解读

作业启动作业提交的客户端比较核心的类是 Job.java，看作业启动的源码需要从这个类开始看。 Job.java 作业启动的入口函数为 waitForCompletion 函数。当前函数的核心函数为 submit()，主要如下： public void submit() throws IOException, Int ..

【持续更新】hdfs 常见命令

hdfs fsck 命令详细参见： [链接] [链接] hdfs distcp 命令 DistCp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。它使用 Map/Reduce 实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为 map 任务的输入，每个任务会完成源列表中部分文件的拷贝。 ..

ResourceManager 简介

简介 ResourceManager(RM)，RM 是全局的资源管理器，负责整个系统的资源管理和分配。主要由以下两部分组成：调度器：根据容量、队列限制条件将系统资源分配给各个应用。资源分配的单位是 container，container 是一个动态资源单位，它将内存、CPU、磁盘、网络等资源封装在一起，从而限定了资 ..

nameNode 启动过程源码分析

简介本章详细介绍 NameNode 启动过程。主要是代码级别的解释。 nameNode 的启动主要是有 NameNode.java 主导的，由 main 函数开始了解。下面是 main 函数里面的主要内容，可以看到主要由 createNameNode 实现 NameNode 的启动。 NameNode nameno ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

在Hadoop中处理输入的CSV文件

相关帖子

FSDirectory 详解

Yarn 作业启动源码解读

【持续更新】hdfs 常见命令

ResourceManager 简介

nameNode 启动过程源码分析

【bigdata】3.idea 连接虚拟机 Hadoop 集群

【bigdata】2.Hadoop 集群模式安装

欢迎来到这里！

近期热议

推荐标签标签

最新标签

在Hadoop中处理输入的CSV文件

相关帖子

FSDirectory 详解

Yarn 作业启动源码解读

【持续更新】hdfs 常见命令

ResourceManager 简介

nameNode 启动过程源码分析

【bigdata】3.idea 连接虚拟机 Hadoop 集群

【bigdata】2.Hadoop 集群模式安装

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签