问题描述
我一直在做一个项目,我想收集 url,然后我可以使用刮刀类导入所有模块,它应该将所有模块都注册到列表中。
我目前已完成:
import sys
import tldextract
class Scraper:
scrapers = {}
def __init_subclass__(scraper_class):
Scraper.scrapers[scraper_class.url] = scraper_class # .url -> Unresolved attribute reference 'url' for class 'Scraper'
@classmethod
def for_url(cls,url):
k = tldextract.extract(url)
return scrapers[k.domain]() #<-- Unresolved reference 'scrapers'
class BBCScraper(Scraper):
url = 'bbc.co.uk'
def scrape(s):
print(s)
# FIXME Scrape the correct values for BBC
return "Yay works!"
url = 'https://www.bbc.co.uk/'
scraper = Scraper.for_url(url)
scraper.scrape("yay")
我目前的问题是我无法继续执行代码,因为我无法返回 scrapers[k.domain]()
Output >>> NameError: name 'scrapers' is not defined
我想知道如何选择正确的类,例如,如果 URL 是 bbc,它应该进入 BBCScraper 类,然后我们调用刮取,稍后将返回在该特定上刮取的值网站
解决方法
像在 __init_subclass__
中所做的那样或使用 cls.scrapers
。
@classmethod
def for_url(cls,url):
k = tldextract.extract(url)
return Scraper.scrapers[k.domain]()
# or
return cls.scrapers[k.domain]()
关于第二个问题
- 请在单独的问题中提问
- 请更好地解释您到底要做什么