Azure 权限 - 扫描文件类型

问题描述

我们正在扫描 Azure 数据湖(第 2 代)。在扫描结果中,我们得到了一些我们不想出现在资产寄存器中的文件 - 例如,如下所示的配置文件 (.wmk)。如果有什么办法可以隐藏某种类型的所有文件?我查看了扫描规则以查看自定义规则是否有效,并且文件类型 (.wmk) 未列为扫描目标,但它确实出现在资产登记册中。

同样适用于数据湖文件夹,我们只想看到资源集,而不是资产中的文件夹。

有没有办法让它们不显示在资产中?

enter image description here

解决方法

在扫描之前,您可以通过选择列表中的适当项目范围将扫描范围限定为特定文件夹或子文件夹。注册并扫描数据源后,数据映射会提取有关数据源结构(分层命名空间)的信息。此信息用于构建数据发现的浏览体验。

enter image description here

注意:

  • 如果完全或部分检查父项,将自动选择某个父项下的所有未来资产
  • 成功扫描后,新扫描的资产出现在浏览体验中之前可能会有延迟。此延迟可能需要 几个小时。

在目录中搜索资产时,操作员用于编写搜索查询。

具体来说,您可以在所有大写中使用布尔运算符 NOT 来指定资产不能包含的内容作为子句右侧的关键字或使用 '*' 匹配一对多字符的通配符,以便您的查询不会返回包含 (.wmk) 属性的资产。

Example: Expense NOT wmk NOT *.wmk

(运算符可以根据需要在单个查询中组合多次。)

资源集的概念:

  • 资源集是目录中的单个对象,代表一个 大量资产在存储中。
  • 为了应对将大量数据资产映射到一个 单一逻辑资源,Azure Purview 使用资源集。
  • Azure Purview 在扫描时会自动检测资源集。这 功能查看通过扫描获取的所有数据,并 将其与一组定义的模式进行比较。然后它从一个 完整扫描到样本扫描。
  • 在样本扫描中,它只打开它认为的文件的一个子集 位于资源集中。对于它打开的每个文件,它使用它的 模式并运行其分类器。
  • Azure Purview 然后在打开的资源中查找最新的资源 资源并在 目录中整个资源集的条目。 存储聚合 有关构成资源的分区资源的信息 设置。

自定义或覆盖 Azure Purview 如何检测哪些资产分组为资源集以及它们在目录中的显示方式,您可以在管理中心定义模式规则.

创建资源集模式规则:

  1. 前往管理中心。从菜单中选择模式规则 在资源集标题下。选择 + 新建以创建新规则 设置。

enter image description here

  1. 输入资源集模式规则的范围。 (文件夹路径)
  2. 适当更新字段,主要针对您的情况,合格 名称不分组为资源集

enter image description here

注意:创建模式规则后,所有新扫描都将应用 摄入时的规律。数据目录中的现有资产将是 通过后台进程更新,这可能需要几个小时。

E示例:不要将 .wmk 文件分组到资源集s

输入文件:

https://myazureblob.blob.core.windows.net/bar/raw/Expense-7/01-01-2020/22:33:22-001.xls
https://myazureblob.blob.core.windows.net/bar/raw/Expense-8/01-01-2020/22:33:22-002.wmk

模式规则

Scope: https://myazureblob.blob.core.windows.net/bar/

Display name: Expense-{{Fileid}}

Qualified Name: raw/Filename-{{Fileid:int}}/{{:date}}/{{:time}}-{{:int}}.wmk

Resource Set: false

输出单个资产

Asset 1

Display name: Expense-7

Qualified Name: https://myazureblob.blob.core.windows.net/bar/raw/Expense-7/01-01-2020/22:33:22-001.xls

此外,如果您觉得这没有帮助,您可以分享您的 Feedback,以便产品团队可以研究这个想法。 ✌