根据相似短语生成自然语言

问题描述

我正在做一个项目,希望社区可以分享一些关于如何最好地处理它的想法。

情况:

  • 在当前的业务流程中,人们手动生成相似但略有不同的描述(在语法、语法方面不同)
  • 这些描述源自一组结构化数据点。更多的此类数据点正在不断生成
  • 目标是根据这些数据点自动生成描述

数据点在 Python 中被组织为字典,例如:

thisdict = { "company": "Amazon","team": "Global Procurement","employees": 15.0,"contractors": 2.0 }

以下三个典型描述的例子来自这本词典:

  • 亚马逊全球采购由 15.0 名员工和 2.0 名承包商组成的团队提供支持
  • 15 名员工致力于亚马逊全球采购,并有 2.0 承包商提供支持
  • 亚马逊全球采购由 15 名负责人和额外的 2.0 承包商提供支持

我有这些描述的丰富数据集和随附的字典,我希望用它来训练一个模型,该模型根据字典的新增内容生成描述。

我认为可以通过马尔可夫链来处理句子生成任务。但是,我需要保留字典中的关联(即数字 15.0 需要链接到术语“员工”或相关同义词),我不确定如何将这些字典对合并到模型中。

如有任何建议,我们将不胜感激。

谢谢

解决方法

如果我理解正确,您正在尝试生成给定结构化数据的文本/句子,即此特定情况下的实体。 This 项目也是如此。你可以试试这个项目。