问题描述
我正在考虑使用 Cloud DLP 来帮助我对数据进行匿名处理。但是,我似乎无法明确提及支持哪些语言。 AWS Comprehend 的检测 PII API 仅支持英文,因此正在寻找替代方案。
解决方法
在探测器参考页面中,您可以找到每个国家/地区的探测器
https://cloud.google.com/dlp/docs/infotypes-reference
对于 PHONE_NUMBER 这样的全局检测器,没有关于支持的语言的信息,但您可以在演示页面中测试对您的语言的支持
https://cloud.google.com/dlp/demo/#!/
例如,如果您用西班牙语写 Mi teléfono es 600111222
(我的电话是 600111222),它会检测到 PHONE_NUMBER 的可能性很大,但是如果您写 Me puedes llamar al 600111222
(您可以拨打我的电话 600111222),它只会检测到一个可能性低的 GENERIC_ID。
此外,如果在前面的示例中添加国家/地区前缀 (+34600111222),则第一个中的可能性增加到 VERY_LIKELY,而第二个中检测到 PHONE_NUMBER 为 POSSIBLE
总而言之,它适用于其他语言并使用上下文来改进匹配,但您应该使用一些示例来检查特定用例中的准确性