问题描述
我有一个关于文本分析包和代码的问题。总体思路是,我正在尝试对大约 4,000 个 Word 文件的集合执行可读性分析。我想做许多这样的分析中的任何一个,但现在的问题是让 R 将上传的文件识别为准备分析的数据。但是我一直收到错误消息。让我展示我到目前为止所做的事情。我有三个单独的命令,因为我将 4,000 个文件的文件分成三个单独的文件,因为显然,该文件太大而无法单独阅读整个文件。因此,我将文件分成三个大致相似的文件夹。它们被称为“WPSCASES”一到三。这是我的代码,下面记录了每个命令的错误消息:
token <- tokenize("/Users/Gordon/Desktop/WPSCASES ONE/",lang="en",doc_id="sample")
错误信息如下:
nchar(tagged.text[,"token"],type = "width") 中的错误:多字节字符串无效,元素 348
其他两个命令的错误消息相同。但是“元素”编号不同。第二个文件夹是 925,第三个是 4302。
token2 <- tokenize("/Users/Gordon/Desktop/WPSCASES2/",doc_id="sample")
token3 <- tokenize("/Users/Gordon/Desktop/WPSCASES3/",doc_id="sample")
如果有帮助,这些是其他命令。
我试图发现错误消息提到的“元素”是否对应于文件顺序中该编号的文件。但由于文件夹 3 中没有 4,300 个文件,我认为这不太可能。请让我知道您是否能弄清楚如何解决这些问题,以便我可以开始使用“koRpus”命令,例如“可读性”及其后代。
谢谢你,戈登
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)