fairseq --print-alignment 格式的解释

问题描述

我正在尝试使用 https://github.com/kanekomasahiro/bert-gec(语法错误纠正),而后者又使用 fairseq。按照 bert-gec github 页面上的文档,经过训练,我能够使用自命名脚本 (https://github.com/kanekomasahiro/bert-gec/blob/master/scripts/generate.sh) 生成输出。因为我想查看对齐方式,所以我对 generate.sh 脚本所做的唯一更改是添加“--print-alignment”(在第 20-32 行对 Interactive.py 的调用中)。这有效,但我不知道如何解释输出。 我的输出示例:

S-0     What's a college?
H-0     -0.263251930475235      What 's a college?
P-0     -0.0619 -0.1579 -0.1606 -0.5393 -0.1052 -0.1705 -0.8060 -0.1045
A-0     0 8 8 4 8 8 8 8

最后一行是作为 --print-alignment 的结果附加的。但是,我本来希望得到一些更容易理解的东西(例如法老格式,即 0-0 0-1 1-2 3-3 3-4 3-5 4-6 6-7 6-8,从中您可以立即看到源中的哪个标记对应于目标中的哪个标记)。

关于如何解释这种对齐格式(或如何将其转换为更容易解释的格式)的任何想法都非常受欢迎!

附言找到 this SO post,但这并没有真正帮助我(在 fairseq 代码中找不到引用的函数,也许是不同的版本,无论如何,获取对齐似乎不是问题,只是完全不知道如何解释它们:)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)