从辩论的 html 抄本创建数据框或文档特征矩阵

问题描述

必须从与此类似的 html 文件中分析 VP 辩论 :https://www.debates.org/voter-education/debate-transcripts/october-22-2020-debate-transcript/

如何在不使用太多复杂包的情况下以一种格式获取它,我只能从中看到一个候选者所说的内容与另一个候选者相比?

我目前只设法导入文件并将其转换为不太有用的字符或纯文本。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)