Stanford的POS标签器在Java中使用

Mar 9,2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD,decimal: 65533)
Mar 9,decimal: 65533)

这些是当我想要将POS标签分配给句子时,我得到的错误.我从文件中读取句子.最初(几句话)我没有得到这个错误(即不可破译),但是在阅读一些句子后,这个错误就出现了.我使用v2.0(即2009年)的POS标签,模型是left3words.

解决方法

我同意Yuval – 一个字符编码问题,但最常见的情况是,当标记器尝试以UTF-8读取文件时,该文件采用单字节编码(如ISO-8859-1).参见 Wikipedia的UFFFD讨论.

相关文章

最近看了一下学习资料,感觉进制转换其实还是挺有意思的,尤...
/*HashSet 基本操作 * --set:元素是无序的,存入和取出顺序不...
/*list 基本操作 * * List a=new List(); * 增 * a.add(inde...
/* * 内部类 * */ 1 class OutClass{ 2 //定义外部类的成员变...
集合的操作Iterator、Collection、Set和HashSet关系Iterator...
接口中常量的修饰关键字:public,static,final(常量)函数...