使用posix awk或sed将段落条目转换为列?

问题描述

我正在解析一个看起来像这样的文件

Al bronson
Bud Collins
Yousef Zane

2020-03-04
2020-04-04
2018-05-14

Actor 8
Stage 3
Producer 2

我希望它们格式化为:

Al bronson,2020-03-04,Actor 8
Bud Collins,2020-04-04,Stage 3
Yousef Zane,2018-05-14,Producer 2

我尝试过

awk 'BEGIN {
    FS = "\n"
    RS = "" 
    OFS = "," 
    ORS = "\n" 
  }
  {
    for (i=1; i<=NF; i++) {
      arr[$i] = $i
    }
  }
  END {
    for (i=1; i<=NF; i++)
      print arr[$i]
  }' \
"$FILE"

但是它只是输出

Actor 8
Stage 3
Producer 2

这很奇怪:

awk 'BEGIN {
    FS = "\n"
    RS = "" 
    OFS = "," 
    ORS = "\n" 
  }
  {
    print $1
  }' \
"$FILE"

输出接近我想要的东西:

Al bronson
2020-03-04
Actor 8

我很不高兴,似乎很容易,而且-我想-我很亲密!

有人可以解释发生了什么吗?

解决方法

i是一个数字,而$i是第i个字段的内容,因此arr[i]而非arr[$i]是您想要的语法。另外,您必须附加新字段,而不要分配和覆盖现有内容。所以您的脚本应该是:

BEGIN {
    FS = "\n"
    RS = "" 
    OFS = "," 
    ORS = "\n" 
}
{
    for (i=1; i<=NF; i++) {
        arr[i] = (arr[i]? arr[i] OFS $i: $i)
    }
}
END {
    for (i=1; i<=NF; i++)
        print arr[i]
}
,

我假设输入包含三个记录,每个记录具有相同数量的字段(行)。下面的脚本读取这三个记录,并在换行符处拆分每个记录。

awk -F'\n' -v RS= -v OFS=,'
    NR == 1 { n = split($0,names) }
    NR == 2 { split($0,dates) }
    NR == 3 { split($0,info) }
    END     { for (i = 1; i <= n; ++i) print names[i],dates[i],info[i] }
' file