雪花中的数据屏蔽

问题描述

如何在 Snowflake 中创建 SQL UDF 来实现这一点?我可以在 JS 中实现相同的

需要有关雪花中数据屏蔽的建议吗?

实际: 来自波士顿的客户约翰,致电将新生儿出生日期 01/02/2015 添加到医疗福利中。更新以下SSN 999-999-9999等

预期输出: 来自 xxxxx 的客户 xxxx 致电将新生儿 DOB xxxxxxxxx 添加到医疗福利中。使用以下 xxx xxxxxxxxxxxx 等进行更新

解决方法

简短的回答是,现实中不可能实现您想要的(显然,只要您投入足够的时间和资源,一切皆有可能)。

长答案...

您需要能够解析每个文本字符串,识别每个单词,并以 100% 的可靠性确定它是否包含 PII 信息,然后将其屏蔽。

  1. 您将如何识别人们的姓名?您不能仅仅使用它们大写的事实,因为输入数据的人可能没有这样做。此外,句子开头的所有单词都将大写
  2. 即使您可以将“单词”识别为日期,您怎么知道它是 DoB(以及 PII)而不是其他日期?
  3. 您可能有一个类似“2020 年 1 月 1 日”这样的日期 - 您如何将其识别为日期,因为解析单个单词不起作用?

我不相信即使是商业上可用的数据治理解决方案(我有一些经验)也无法可靠地做到这一点。他们几乎总是处理数据列并查看整个列的内容,看看它是否可能是 PII 候选者(通常有一些非常复杂的 AI/ML)——我从未见过可以解析长文本的解决方案字符串,并可以从中提取单个 PII 元素(尽管如果有人知道这样的解决方案,我很想听听)。

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...