问题描述
我是数据文字NLG的新手。我正在研究数据到文本中的语义对齐方式,任务定义是用数据表的键标记有关数据故事的参考文本段,如下图所示。
现在的困难是没有标签数据,所以我不知道要处理它。因此,我想知道是否有任何有关此问题的论文或方法。谢谢!
解决方法
这是文本的语言功能,称为词性标记。 您应该从spaCy开始,下面是了解它的代码:
import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")
for token in doc:
print(token.text,token.lemma_,token.pos_,token.tag_,token.dep_,token.shape_,token.is_alpha,token.is_stop)
输出将是:
Apple Apple PROPN NNP nsubj Xxxxx True False
is be AUX VBZ aux xx True True
looking look VERB VBG ROOT xxxx True False
at at ADP IN prep xx True True
buying buy VERB VBG pcomp xxxx True False
U.K. U.K. PROPN NNP compound X.X. False False
startup startup NOUN NN dobj xxxx True False
for for ADP IN prep xxx True True
$ $ SYM $ quantmod $ False False
1 1 NUM CD compound d False False
billion billion NUM CD pobj xxxx True False