AWK FPAT 无法按预期进行字符串解析

问题描述

我必须解析一个非常大的字符串(来自标准输入)。它基本上是一个 .sql 文件。我必须从中获取数据。我正在解析数据,以便将其转换为 csv。为此,我使用 awk。就我而言,(两条记录的)示例片段如下:

b="(abc@xyz.com,www.example.com,'field2,(2)'),(dfr@xyz.com,'field0'),"
echo $b|awk 'BEGIN {FPAT = "([^\\)]+)|('\''[^'\'']+'\'')"}{print $1}'

在我的正则表达式中,我是说在“)”括号上拆分,或者如果找到单引号,则忽略所有文本,直到找到最后一个引号。但我的输出如下:

(abc@xyz.com,(2

我期待这个输出

(abc@xyz.com,(2)'

我的代码哪里出了问题。我搜索了很多,并为此检查了 awk 手册,但没有成功。

解决方法

我在下面的第一个答案是错误的,您正在尝试做的事情有一个 ERE:

$ echo "$b" | awk -v FPAT="[(]([^)]|'[^']*')*)" '{for (i=1; i<=NF; i++) print $i}'
(abc@xyz.com,www.example.com,'field2,(2)')
(dfr@xyz.com,'field0')

原始答案,保留为另一种方法:

您首先需要一个 2-pass 方法,将引用字段中的所有 ) 替换为输入中尚不存在的内容(例如 RS),然后识别 (...) 字段和在打印之前将 RS 放回 )

$ echo "$b" |
awk -F"'" -v OFS= '
    {
        for (i=2; i<=NF; i+=2) {
            gsub(/)/,RS,$i)
            $i = FS $i FS
        }
        FPAT = "[(][^)]*)"
        $0 = $0
        for (i=1; i<=NF; i++) {
            gsub(RS,")",$i)
            print $i
        }
        FS = FS
    }
'
(abc@xyz.com,'field0')

由于 FPAT(或者我们可以使用 gawk patsplit()),以上只是 gawk,您使用了 while-match()-substr() 循环的其他 awk:

$ echo "$b" |
awk -F"'" -v OFS= '
    {
        for (i=2; i<=NF; i+=2) {
            gsub(/)/,$i)
            $i = FS $i FS
        }
        while ( match($0,/[(][^)]*)/) ) {
            field = substr($0,RSTART,RLENGTH)
            gsub(RS,field)
            print field
            $0 = substr($0,RSTART+RLENGTH)
        }
    }
'
(abc@xyz.com,'field0')
,

使用您在 GNU awk 中显示的示例编写和测试。这可以在简单的字段分隔符设置中完成,尝试以下一次,其中 b 是您的 shell 变量,其中包含您显示的值。

echo "$b" | awk -F'\\),\\(' '{print $1}'
(abc@xyz.com,(2)'

说明: 只需将 awk 程序的字段分隔符设置为 \\),\\( 以供您输入并打印它的第一个字段。

,

与 Ed 建议的类似正则表达式方法,但我通常更喜欢使用 RSRT 而不是 FPAT

b="(abc@xyz.com,(2)'),(dfr@xyz.com,'field0'),"
awk -v RS="[(]('[^']*'|[^)])*[)]" 'RT {print RT}' <<< "$b"
(abc@xyz.com,'field0')
,

如果你想接近一次通过,也许试试这个

{mawk/mawk2/gawk} 'BEGIN { OFS = FS = "\047"; ORS = RS = "\n";

        XFS = "\376\004\377"; 
        XRS = "\051" ORS;
    
    } ! /[\051]/ { print; next; } { for (x=1; x <= NF; x += 2) { 

        gsub(/[\051][^\050]*/,XFS,$(x)); } } gsub(XFS,XRS) || 1'

我用 2 个 gsub 这样做,以防万一它开始发送下面的行并带来意想不到的后果。 \051 = ")",\050 是打开的。

  • 通过告诉它立即打印并在甚至找不到右括号时继续前进来进一步增强它(因此根本没有可拆分的)

一旦我用单引号 \047 分割它,它只会在奇数字段上循环(因为偶数字段恰好是您想要避免切入的一对单引号中的那些)。

至于 XFS,只需使用几乎不可能遇到的字节选择任意组合。如果您想安全一点,您可以测试该行中是否存在 XFS,并使用一些替代组合。基本上是在不会与实际输入数据冲突的行中间插入一个分隔符。这本身并不是万无一失的,但遇到 UTF16 字节顺序标记和 ASCII 控制字符组合的可能性相当低。

(如果您遇到 XFS,很可能您一开始就已经损坏了数据,因为 300 系列八进制必须后跟 200 系列八进制才能成为有效的 UTF8)

这样,我根本不需要 FPAT。

*在最后用“ || 1”更新作为安全包罗万象,但不应该真的需要。