问题描述
很明显,GetOldTweets3
是一个用于访问旧推文的python库,对于Tweepy
这样的库,这是不容易实现的。但是最近,由于新的Twitter API:https://github.com/Mottl/GetOldTweets3/issues/98,此问题尚未解决。
问题是什么是GetOldTweets3
替代库,用于检索不受时间限制的推文?根据我的经验,Tweepy
不能检索200条以上的推文。
解决方法
到目前为止,刮擦推文似乎仍然可行的唯一方法是snscrape的jsonl方法。 或这个 https://github.com/rsafa/get-latest-tweets/
,每个请求的最大200条推文限制。您可以使用返回的next
参数来请求下一个连续的tweets页面,以请求下一页200。如果您使用的是Standard Search API,这些请求将停止返回早于一周的tweets。借助Premium Search API的完整存档,您可以获取自2006年以来的所有推文。
此处有详细说明:https://developer.twitter.com/en/docs/twitter-api/v1/tweets/search/api-reference
,我建议使用snscrape。然后,可以将以此方式收集的ID传递给api.statuses_lookup。通过使用api.statuses_lookup,您可以每15分钟通过Twitter api下载300 * 100条推文。
VCR::Errors::UnhandledHTTPRequestError:
================================================================================
An HTTP request has been made that VCR does not know how to handle:
GET https://npiregistry.cms.hhs.gov/api/?address_purpose=&number=1386765287&version=2.1
There is currently no cassette in use.