问题描述
我想用代词代替句子中的名词。我将使用它来为NLP任务创建数据集。例如,如果我的句子是->
“杰克和瑞安是朋友。 杰克 也是米歇尔的朋友。”
然后我要用“ He”替换第二个Jack(斜体和粗体)。 我已经完成POS标记以在句子中找到名词。但是我不知道如何从这里开始。 如果我列出了可以使用的所有可能代词,是否有一个语料库或系统可以告诉我该词最合适的代词?
解决方法
您几乎可以使用Stanford CoreNLP中的工具来做到这一点。如果运行“ coref”注释器,则它将尝试确定代词对文本中其他实体提及的引用。还有一个“性别”注释器,可以为英语名称分配(二进制)性别(仅基于总体频率统计信息)。 (此性别注释器目前只能通过编程方式访问;其输出不会以我们的标准输出格式显示。)
但是,共同指称解析和自动性别分配都是精度中等的任务,第二个具有进一步的假设,使其普遍存在疑问。我很难相信自动执行此操作将是为NLP任务自动生成数据的有用策略。