问题描述
我已经训练了一个Azure LUIS服务模型,该模型将句子作为输入,提取关键信息,并返回JSON响应。
它适用于短句子,现在,我希望它获取一个文档(PDF,DOCX)并分析所有页面,然后提取所需的信息(例如,StartingDate,EndingDate,CompanyName等)。可以添加任何内容吗?
或有关如何分析整个文档并提取关键信息的任何指导。
任何种类的信息将不胜感激! 谢谢
解决方法
@Farhan Mubasher LUIS如果您传递的句子或话语能够提取诸如日期和名称之类的信息作为实体,则效果很好。实际上,其中大多数都可以作为预建实体来训练模型并从话语中提取出来。
如果您打算像整个PDF文档一样使用多个页面的整个文档,则使用form recognizer之类的服务或使用Azure计算机视觉的READ API之类的服务来提取文本会更容易。使用一些预处理技术,您可以将句子传递给经过LUIS训练的模型并处理响应。
如果您的最终目标是从某种格式的文档中提取日期和公司信息之类的信息,表单识别器将非常有用。您只需要使用一些格式相似的文档训练模型,然后使用Analyze API将此信息提取为JSON响应中可用的标签。请检出表单识别器labeling tool,它非常容易设置和使用。