AWK 循环多列

问题描述

请假装我有以下情况（多列和多行）：

TUNE_PKGARCH

想要的是 awk 循环遍历每一列并在这些条件下写入新的输出：

如果第一个字段（以“:”分隔）是 1/1 或 0/0，

然后写“NA”TAB“NA”

其他

将两个数字写入以下字段，“数字 1”选项卡“数字 2”。列之间的分隔符应为 TAB。

因此，上面使用的示例所需的输出是：

1/1:123:121 TAB 0/0:1:21 TAB 1/1:12:14
0/1:12:23 TAB 0/1:12:15 TAB 0/0:123:16
0/0:3:178 TAB 1/1:123:121 TAB 1/1:2:28

以下是我当前的代码，适用于第一列，但我不知道如何使其适用于文件中的所有列。

NA TAB NA TAB NA TAB NA TAB NA TAB NA
12 TAB 23 TAB 12 TAB 15 TAB NA TAB NA
NA TAB NA TAB NA TAB NA TAB NA TAB NA

关于如何实现这一目标的任何想法？

非常感谢乔治。

解决方法

如果我正确理解了您的 TAB 符号，请您试试：

awk -F"\t" '{
    for (i = 1; i <= NF; i++) {
        split($i,a,":")
        if (a[1] == "0/0" || a[1] == "1/1") a[2] = a[3] = "NA"
        printf "%s\t%s%s",a[2],a[3],i == NF ? "\n" : "\t"
    }
}' input_file

其中 input_file 看起来像：

1/1:123:121     0/0:1:21        1/1:12:14
0/1:12:23       0/1:12:15       0/0:123:16
0/0:3:178       1/1:123:121     1/1:2:28

和输出：

NA      NA      NA      NA      NA      NA
12      23      12      15      NA      NA
NA      NA      NA      NA      NA      NA

您可以使用此awk：

awk -v OFS='\t' -F '[:\t]' '{
   s = ""
   for (i=1; i<=NF; i+=3)
      s = (s == "" ? "" : s OFS) ($i == "0/0" || $i == "1/1" ? "NA" OFS "NA" : $(i+1) OFS $(i+2))
   print s
}' file

NA  NA  NA  NA  NA  NA
12  23  12  15  NA  NA
NA  NA  NA  NA  NA  NA

一种可能的解决方案：

 awk '{ for(i=1; i<=NF; i++){split($i,","); if (a[1] == "0/0" || a[1] == "1/1") {printf " ""NA"" ""NA"} else {printf " "a[2]" "a[3]}} print""}' | cut -d " " -f2- > Test.txt

一个 sed 解决方案：

sed  's~\(0/0\|1/1\)[0-9:]\+~NA\tNA~g; s~./.:\([0-9]\+\)\:\([0-9]\+\)~\1\t\2~g' dat.tab  

NA  NA  NA  NA  NA  NA
12  23  12  15  NA  NA
NA  NA  NA  NA  NA  NA

以'0/0'或'1/1'开头的第一个替换NAs字段
第二次替换从字段中分离并发出尾随冒号分隔的数字

（整理输出间距）

awk bioinformatics shell vcf-variant-call-format

AWK 循环多列

问题描述

解决方法

相关问答