我应该使用NLP来检测元数据中的实体吗?怎么样?

问题描述

我有一些关于建筑物的元数据,这是示例之一:
AHU-S-6F-01.RA.CO2.1
我正在寻找一种使计算机能够识别元数据中的实体的方法,例如:
[Location].[Sensor-Type].[Sensor-Element].[Sensor-ID]
数据集中还有其他数据格式,因此我想我可以使用Tensorflow.js来使用命名实体识别(NER)并将其实现,以使计算机学会识别元数据中的实体并为其添加标签。我在下面找到了一个示例:

https://monkeylearn.com/text-analysis/

命名实体识别(NER)是否适合用于检测元数据中的实体?如何通过Tensorflow.js实现它?
如果没有,我应该用什么来解决这个问题?
谢谢!!!

解决方法

如果您的信息是可预测的(确定性的),始终希望每个字段且每个值都是预定义的,那么我将使用regexp。

NLP / NER技术需要进行一些培训(数百到数千个培训示例),并且如果值随时间变化,则必须使用新示例进行重新培训。它可以处理出现歧义的情况(也许不是您的情况)。

,

您需要检测哪些词是产品功能,因此您应该在此架构中使用BERT来匹配复杂的模式(但是,如果您的问题很简单,则最好使用正则表达式) enter image description here

此架构在类似的任务中实现:

https://gab41.lab41.org/how-to-fine-tune-bert-for-named-entity-recognition-2257b5e5ce7e

https://towardsdatascience.com/named-entity-recognition-ner-with-bert-in-spark-nlp-874df20d1d77

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...