上传 Word 文件以进行可读性分析的“标记化”命令中的错误

问题描述

我有一个关于文本分析包和代码的问题。总体思路是，我正在尝试对大约 4,000 个 Word 文件的集合执行可读性分析。我想做许多这样的分析中的任何一个，但现在的问题是让 R 将上传的文件识别为准备分析的数据。但是我一直收到错误消息。让我展示我到目前为止所做的事情。我有三个单独的命令，因为我将 4,000 个文件的文件分成三个单独的文件，因为显然，该文件太大而无法单独阅读整个文件。因此，我将文件分成三个大致相似的文件夹。它们被称为“WPSCASES”一到三。这是我的代码，下面记录了每个命令的错误消息：

token <- tokenize("/Users/Gordon/Desktop/WPSCASES ONE/",lang="en",doc_id="sample")

其他文件夹的代码相同；文件夹的名称不同，但其他方面相同。

错误信息如下：

nchar(tagged.text[,"token"],type = "width") 中的错误：多字节字符串无效，元素 348

其他两个命令的错误消息相同。但是“元素”编号不同。第二个文件夹是 925，第三个是 4302。

token2 <- tokenize("/Users/Gordon/Desktop/WPSCASES2/",doc_id="sample")

token3 <- tokenize("/Users/Gordon/Desktop/WPSCASES3/",doc_id="sample")

如果有帮助，这些是其他命令。

我试图发现错误消息提到的“元素”是否对应于文件顺序中该编号的文件。但由于文件夹 3 中没有 4,300 个文件，我认为这不太可能。请让我知道您是否能弄清楚如何解决这些问题，以便我可以开始使用“koRpus”命令，例如“可读性”及其后代。

谢谢你，戈登

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

r r readability tokenize