将每个文件的同一列提取到一个文件

问题描述

我有以下171个文件的数据集。

CHR:POS   REF:ALT   BREED

6:85406127 T:A 0.333333
6:85406128 T:C 0
6:85406129 C:G 0.333333
6:85406130 T:G 0.833333

所需的输出是

CHR:POS   REF:ALT   BREED BREED2 BREED3 ... 171st file

6:85406127 T:A 0.333333 0.33 0.5 .... 0.4
6:85406128 T:C NA 0.33 0.5 .... 0.4
6:85406129 C:G 0.333333 0.33 NA .... 0
6:85406130 T:G 0.833333 0.33 0.5 .... NA

文件名包含品种名称。第一和第二列在每个文件中包含相同的信息。我将如何从每个文件中仅提取第三列，同时保留第一文件中的所有列？

我将第一个文件移到其他文件夹中以从提取中排除。以下命令未给出结果。

cut -d " " -f3 *.txt | paste ../breedname.txt - > output.txt

我也尝试使用这些问题中显示的awk命令，但不适用于我的数据集。

欢迎任何帮助！

解决方法

这是一种非常快捷，肮脏的方法：

假设文件的顺序相同：

$ awk '(FNR==NR){a[FNR]=$0;next}
       {a[FNR]=a[FNR] FS $NF}
       END{for(i=1;i<=FNR;++i) print a[i]}' file1 file2 file3 ... filen

如果您希望标题更简洁：

$ awk '(FNR==NR){a[FNR]=$0 (FNR==1?++c:"");next}
       {a[FNR]=a[FNR] FS $NF (FNR==1?++c:"")}
       END{for(i=1;i<=FNR;++i) print a[i]}' file1 file2 file3 ... filen

假设文件的顺序不同：

$ awk '{key=$1 FS $2}
       (FNR==NR){a[key]=$0 (FNR==1?++c:"");next}
       {a[key]=a[key] FS $NF (FNR==1?++c:"")}
       END{for(i in a) print a[i]}' file1 file2 file3 ... filen

我会做这样的事情：

paste -d " " *.txt | awk '{printf "%s %s ",$1,$2; for (i = 3; i <= NF; i+=3){printf "%s ",$i} print ""}'

paste垂直连接各行，因此每一列都彼此相邻。之后，您只需要选择所需的列即可。

awk cut paste