我正在使用Stanford POS Tagger(这是第一次),虽然它正确地标记了英文,但即使更改模型参数,它也似乎无法识别(简体)中文.我忽略了什么吗?
我从这里下载并解压缩了最新的完整版本:
http://nlp.stanford.edu/software/tagger.shtml
然后我将样本文本输入“sample-input.txt”.
这是一个测试的句子.这是另一个句子.
然后我就跑了
./stanford-postagger.sh models/chinese-distsim.tagger sample-input.txt
预期的输出是用词性标记每个单词,而是将整个文本字符串识别为一个单词:
Loading default properties from tagger models/chinese-distsim.tagger
Reading POS tagger model from models/chinese-distsim.tagger … done [3.5 sec].
這是一個測試的句子.這是另一個句子.#NR
Tagged 1 words at 30.30 words per second.
我感谢任何帮助.
解决方法:
我终于意识到这个pos标记器中不包含标记化/分割.在将它们提供给标记器之前,它们似乎必须以空格分隔.对于那些对中文最大熵分词感兴趣的人,这里有一个单独的包:
http://nlp.stanford.edu/software/segmenter.shtml
感谢大家.