问题描述
我一直在做一个项目,我想收集 url,然后我可以使用刮刀类导入所有模块,它应该将所有模块都注册到列表中。
我目前已完成:
import sys
import tldextract
class Scraper:
scrapers = {}
def __init_subclass__(scraper_class):
Scraper.scrapers[scraper_class.url] = scraper_class # .url -> Unresolved attribute reference 'url' for class 'Scraper'
@classmethod
def for_url(cls,url):
k = tldextract.extract(url)
return scrapers[k.domain]() #<-- Unresolved reference 'scrapers'
class BBCScraper(Scraper):
url = 'bbc.co.uk'
def scrape(s):
print(s)
# FIXME Scrape the correct values for BBC
return "Yay works!"
url = 'https://www.bbc.co.uk/'
scraper = Scraper.for_url(url)
scraper.scrape("yay")
我目前的问题是我无法继续执行代码,因为我无法返回 scrapers[k.domain]()
Output >>> NameError: name 'scrapers' is not defined
我想知道如何选择正确的类,例如,如果 URL 是 bbc,它应该进入 BBCScraper 类,然后我们调用刮取,稍后将返回在该特定上刮取的值网站
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)