通过archive.org将推文随机样本下载到R中

问题描述

-- 免责声明,我是一名业余 R 编码员,我正在为我的学士论文做这件事,这可能使我自己变得比它更难。我也只考虑免费选项,因为付费选项有点超出我的学生预算 --

大家好, 我正在尝试下载大量推文以进行较长时间(至少 4 个月)的情绪分析。我曾尝试使用 Twitter API 和 rtweet 包,但这只给了我有限数量的推文(最多 3000),只涵盖了几个小时(大约 3)。 rtweet 包很好,因为它已经允许我下载带有特定搜索词的推文。不幸的是,不会超过更长的时间,因为它不允许我下载随机样本,但实际上是 3000 条按时间顺序排列的推文。我还尝试使用带有以下代码的 json 包,其中 29.json 是包含 1 条推文信息的全部 json 文件中的众多纯文本文件之一。

twitter_set <- fromJSON(file = "29.json")

twitter_dataframe <- data.frame(twitter_set[["text"]])
View(twitter_dataframe)

这给了我一条推文文本的数据框。我没有找到自动下载 Json 推文的方法,而且它们都是没有搜索词的单独推文,所以我认为这是一项乏味的工作。

我发现 archive.org 提供了一个随机的推文样本,您可以从中下载多年的推文数据,就像本文https://www.researchgate.net/publication/326021489_The_Impact_of_Sentiment_and_Attention_Measures_on_Stock_Market_Volatility 中所做的那样。

但是,我只能在 archive.org 上下载不同天数的推文的 zip 包。我错过了更方便的方法吗?

关于我应该如何处理的任何提示?我知道有些数据库,比如archive.org,已经有(随机样本)推文可供下载。有没有办法自动化 json 包或 archive.org 下载的过程,最好已经指定搜索词?我错过了另一条更方便的路线吗?或者对此没有什么可做的?

提前致谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...