Azure 认知搜索 - 从外部数据源无 Azure Blob索引二进制数据MS Office 文件

问题描述

我试图了解是否有一种方法以及如何实现它来索引不驻留在 Azure Blob 存储中但驻留在其他非 Azure 数据源中的二进制数据(主要是 MS Office 文档和 PDF)。

我发现的最接近的示例是将文件复制到 Azure blob 容器,然后添加一个技能集以从那里索引这些文档。

我想绕过 Azure blob 容器,直接推送文档元数据和二进制内容

有什么我可以参考的建议或例子吗?

谢谢

解决方法

在将数据推送到索引时,您可以使用自定义技能和内置技能来定义自定义技能组。有文档提取技能可以满足您的需求。见:

Jenkins

,

我想绕过 Azure blob 容器,并推送文档 元数据以及二进制内容直接。

根据可用的文档 here,我认为不可能在 Azure 之外拥有您的数据。你的数据必须驻留在一个可由索引器访问的 Azure 数据源中,索引器目前可以是 Azure blob 存储、Azure 表存储、Azure SQL 数据库和 Azure Cosmos DB 之一。

enter image description here