上传 Word 文件以进行可读性分析的“标记化”命令中的错误

问题描述

我有一个关于文本分析包和代码的问题。总体思路是,我正在尝试对大约 4,000 个 Word 文件的集合执行可读性分析。我想做许多这样的分析中的任何一个,但现在的问题是让 R 将上传文件识别为准备分析的数据。但是我一直收到错误消息。让我展示我到目前为止所做的事情。我有三个单独的命令,因为我将 4,000 个文件文件分成三个单独的文件,因为显然,该文件太大而无法单独阅读整个文件。因此,我将文件分成三个大致相似的文件夹。它们被称为“WPSCASES”一到三。这是我的代码,下面记录了每个命令的错误消息:

token <- tokenize("/Users/Gordon/Desktop/WPSCASES ONE/",lang="en",doc_id="sample")

其他文件夹的代码相同;文件夹的名称不同,但其他方面相同。

错误信息如下:

nchar(tagged.text[,"token"],type = "width") 中的错误:多字节字符串无效,元素 348

其他两个命令的错误消息相同。但是“元素”编号不同。第二个文件夹是 925,第三个是 4302。

token2 <- tokenize("/Users/Gordon/Desktop/WPSCASES2/",doc_id="sample")

token3 <- tokenize("/Users/Gordon/Desktop/WPSCASES3/",doc_id="sample")

如果有帮助,这些是其他命令。

我试图发现错误消息提到的“元素”是否对应于文件顺序中该编号的文件。但由于文件夹 3 中没有 4,300 个文件,我认为这不太可能。请让我知道您是否能弄清楚如何解决这些问题,以便我可以开始使用“koRpus”命令,例如“可读性”及其后代。

谢谢你,戈登

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)