通过archive.org将推文随机样本下载到R中

问题描述

-- 免责声明，我是一名业余 R 编码员，我正在为我的学士论文做这件事，这可能使我自己变得比它更难。我也只考虑免费选项，因为付费选项有点超出我的学生预算 --

大家好， 我正在尝试下载大量推文以进行较长时间（至少 4 个月）的情绪分析。我曾尝试使用 Twitter API 和 rtweet 包，但这只给了我有限数量的推文（最多 3000），只涵盖了几个小时（大约 3）。 rtweet 包很好，因为它已经允许我下载带有特定搜索词的推文。不幸的是，不会超过更长的时间，因为它不允许我下载随机样本，但实际上是 3000 条按时间顺序排列的推文。我还尝试使用带有以下代码的 json 包，其中 29.json 是包含 1 条推文信息的全部 json 文件中的众多纯文本文件之一。

twitter_set <- fromJSON(file = "29.json")

twitter_dataframe <- data.frame(twitter_set[["text"]])
View(twitter_dataframe)

这给了我一条推文文本的数据框。我没有找到自动下载 Json 推文的方法，而且它们都是没有搜索词的单独推文，所以我认为这是一项乏味的工作。

我发现 archive.org 提供了一个随机的推文样本，您可以从中下载多年的推文数据，就像本文https://www.researchgate.net/publication/326021489_The_Impact_of_Sentiment_and_Attention_Measures_on_Stock_Market_Volatility 中所做的那样。

但是，我只能在 archive.org 上下载不同天数的推文的 zip 包。我错过了更方便的方法吗？

关于我应该如何处理的任何提示？我知道有些数据库，比如archive.org，已经有（随机样本）推文可供下载。有没有办法自动化 json 包或 archive.org 下载的过程，最好已经指定搜索词？我错过了另一条更方便的路线吗？或者对此没有什么可做的？

提前致谢！

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

json r r rtweet sentiment-analysis tweets