问题描述
我有唯一的抓取网址,并存储在mongo db中。我再次运行命令scrapy crawl spider_name。它在db中存储相同的数据,我只想在mongo db中存储唯一更新的URL。 这是我的代码。
class NewsPipeline(object):
def __init__(self):
self.conn = pymongo.MongoClient(
'localhost',27017
)
db = self.conn['news_db']
self.collection = db['urls_tb']
def process_item(self,item,spider):
for url in item['url']:
self.collection.insert(dict({'url_key':url}))
return item
查询结果:
_id:5f817cee0548593d37491c9f
url_key:“ https://example.com”
我只想再次插入唯一的URL,需要查找哪个URL是最近更新的URL。 谢谢
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)