我需要获取一个CSV文件,并根据列标题[JAVA]将其拆分为单独的文件

问题描述

我对Java还是很陌生,正在努力阅读> sort>导出csv。我有一个带有[X,Y,Z,标量1,标量2,标量3,标量4]的csv作为标头,需要分成4个csv。实际文件有数千行,因此示例很短:

[X,Y,Z,Sc1,Sc2,Sc3,Sc4]
[1,5,7,9,10]
[0,1,6,8,4,0]
[0,3,2]

我需要将源csv分为4个具有一个标量值和x,y,z数据的独立csv。

File 1       | File 2       | File 3       | File 4
----------------------------------------------------------
[Sc1,X,Z] | [Sc2,Z] | [Sc3,Z] | [Sc4,Z]
[5,0] | [7,0] | [9,0] | [10,0]
[6,1] | [8,1] | [4,1] | [ 0,1]
[3,1] | [3,1] | [ 2,1]

我目前正在使用BufferedReader读取数据,但是我不确定一旦读取数据后如何组织数据,或者这是否是一个好方法。

 ArrayList<String> readFileFast (String expDir,String filename) {
        String path = expDir + filename;
        ArrayList<String> fileContents = new ArrayList<>();
        try {
            BufferedReader br = new BufferedReader(new FileReader(path));
            String line;
            while ((line = br.readLine()) != null) {
                fileContents.add(line);
            }
        } catch (Exception e) {
            SuperStackPrint(e);
        }
        return fileContents;
      }

println(readFileFast(expDir,"/DELETEME.csv"));

任何对如何正确执行此操作的见识将不胜感激。

解决方法

您将受益于使用一个专门读取和写入CSV文件的库。有一些可供选择,但在这里我将使用OpenCSV

如果您最终不使用该库,那么它至少可以为您提供一些有关您自己的方法的想法。

此外,在使用库时,我建议使用诸如Maven或Gradle之类的工具来帮助管理此问题,因为这些工具为您处理“依赖项的依赖关系”-例如,OpenCSV库本身需要访问其他依赖项它使用的库。

对于Maven,这是我的POM文件的OpenCSV依赖项:

<dependency>
    <groupId>com.opencsv</groupId>
    <artifactId>opencsv</artifactId>
    <version>5.2</version>
</dependency>

方法:

  1. 创建一个Java类(“ bean”)以保存将从源CSV文件加载的数据。在我的示例中,该名称为SplitBean

  2. 使用此类创建对象的集合,其中 每个对象都包含CSV文件的一行的数据

  3. 遍历此对象集合,并将相关部分写入4个输出文件。

您可以选择遵循上述方法,而无需使用OpenCSV或类似的库。但是您将不得不编写更多有关基本CSV操作的代码。就您而言,数据并不复杂,因此不会造成不合理的情况。

无论哪种方式,我建议创建一个类来表示一行输入数据,然后在写入输出文件时处理此类对象的列表。这将流程分为两个不同的步骤,并利用Java对象简化了流程。

这是SplitBean类:

import com.opencsv.bean.CsvBindByName;
        
public class SplitBean {
    @CsvBindByName(column = "X")
    private int x;

    @CsvBindByName(column = "Y")
    private int y;

    @CsvBindByName(column = "Z")
    private int z;
    
    @CsvBindByName(column = "Sc1")
    private int  sc1;

    @CsvBindByName(column = "Sc2")
    private int  sc2;

    @CsvBindByName(column = "Sc3")
    private int  sc3;

    @CsvBindByName(column = "Sc4")
    private int  sc4;

    public static String[] getHeadingsOne() {
        String[] s = { "Sc1","X","Y","Z" };
        return s;
    }
    
    public static String[] getHeadingsTwo() {
        String[] s = { "Sc2","Z" };
        return s;
    }
    
    public static String[] getHeadingsThree() {
        String[] s = { "Sc3","Z" };
        return s;
    }
    
    public static String[] getHeadingsFour() {
        String[] s = { "Sc4","Z" };
        return s;
    }
    
    public String[] getDataOne() {
        String[] i = { String.valueOf(sc1),String.valueOf(x),String.valueOf(y),String.valueOf(z) };
        return i;
    }
    
    public String[] getDataTwo() {
        String[] i = { String.valueOf(sc2),String.valueOf(z) };
        return i;
    }
    
    public String[] getDataThree() {
        String[] i = { String.valueOf(sc3),String.valueOf(z) };
        return i;
    }
    
    public String[] getDataFour() {
        String[] i = { String.valueOf(sc4),String.valueOf(z) };
        return i;
    }
    
    public int getX() {
        return x;
    }

    public void setX(int x) {
        this.x = x;
    }

    public int getY() {
        return y;
    }

    public void setY(int y) {
        this.y = y;
    }

    public int getZ() {
        return z;
    }

    public void setZ(int z) {
        this.z = z;
    }

    public int getSc1() {
        return sc1;
    }

    public void setSc1(int sc1) {
        this.sc1 = sc1;
    }

    public int getSc2() {
        return sc2;
    }

    public void setSc2(int sc2) {
        this.sc2 = sc2;
    }

    public int getSc3() {
        return sc3;
    }

    public void setSc3(int sc3) {
        this.sc3 = sc3;
    }

    public int getSc4() {
        return sc4;
    }

    public void setSc4(int sc4) {
        this.sc4 = sc4;
    }
    
}

此类使用@CsvBindByName批注从源CSV文件中的列标题名称映射到该类本身的字段名称。您无需以这种方式进行操作,但这是OpenCSV提供的一项便捷功能。

该类还包含处理4个不同输出文件(它们是输入文件数据的子集)的方法。

现在我们可以编写一个单独的doTheSplit()方法来使用此类:

import com.opencsv.bean.CsvToBean;
import com.opencsv.bean.CsvToBeanBuilder;
import com.opencsv.bean.HeaderColumnNameMappingStrategy;
import com.opencsv.exceptions.CsvDataTypeMismatchException;
import com.opencsv.exceptions.CsvRequiredFieldEmptyException;
import com.opencsv.CSVWriter;
import java.io.IOException;
import java.io.Reader;
import java.io.FileWriter;
import java.net.URISyntaxException;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.util.List;

public class SplitData {

    public void doTheSplit() throws URISyntaxException,IOException,CsvDataTypeMismatchException,CsvRequiredFieldEmptyException {
        HeaderColumnNameMappingStrategy msIn = new HeaderColumnNameMappingStrategy();
        msIn.setType(SplitBean.class);

        Path path = Paths.get("C:/tmp/csvsplit/input.csv");
        List<SplitBean> list;

        // read the data from the input CSV file into our SplitBean list:
        try ( Reader reader = Files.newBufferedReader(path)) {
            CsvToBean cb = new CsvToBeanBuilder(reader)
                    .withMappingStrategy(msIn)
                    .build();
            list = cb.parse();
            int i = 1;
        }

        // set up 4 file writers:
        try ( CSVWriter writer1 = new CSVWriter(new FileWriter("C:/tmp/csvsplit/output1.csv"));
                CSVWriter writer2 = new CSVWriter(new FileWriter("C:/tmp/csvsplit/output2.csv"));
                CSVWriter writer3 = new CSVWriter(new FileWriter("C:/tmp/csvsplit/output3.csv"));
                CSVWriter writer4 = new CSVWriter(new FileWriter("C:/tmp/csvsplit/output4.csv"))) {

            // first write the headers to each file (false = no quotes):
            writer1.writeNext(SplitBean.getHeadingsOne(),false);
            writer2.writeNext(SplitBean.getHeadingsTwo(),false);
            writer3.writeNext(SplitBean.getHeadingsThree(),false);
            writer4.writeNext(SplitBean.getHeadingsFour(),false);
            
            // then write each row of data (false = no quotes):
            for (SplitBean item : list) {
                writer1.writeNext(item.getDataOne(),false);
                writer2.writeNext(item.getDataTwo(),false);
                writer3.writeNext(item.getDataThree(),false);
                writer4.writeNext(item.getDataFour(),false);
            }
        }
    }

}

此代码的第一部分填充List<SplitBean> list。输入电子表格中的每一行数据都有一个splitBean对象。 OpenCSV在幕后为您完成大部分工作。

然后,该代码创建4个文件编写器,这些文件编写器使用OpenCSV CSVWriter对象来帮助将数据格式化为有效的CSV行。

使用此代码,我们将列标题写入4个文件中的每个文件中。最后,我们遍历SplitBean项的集合,并将相关的数据子集写入每个文件。

因此,对于这样的CSV输入文件:

X,Y,Z,Sc1,Sc2,Sc3,Sc4
1,5,7,9,10
0,1,6,8,4,0
0,3,2

我们最终得到4个不同的输出文件。一个例子:

Sc1,X,Z
5,0
6,1
3,1

附加说明:以这种方式使用SplitBean类的一大优势是,如果您决定需要执行更多的数据转换,则可以拥有更大的灵活性-例如,过滤掉数据行或以不同方式对数据进行排序。

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...