我想使用python在mongodb中插入唯一的抓取网址

问题描述

我有唯一的抓取网址,并存储在mongo db中。我再次运行命令scrapy crawl spider_name。它在db中存储相同的数据,我只想在mongo db中存储唯一更新的URL。 这是我的代码。

class NewsPipeline(object):
   def __init__(self):
       self.conn = pymongo.MongoClient(
           'localhost',27017
     )
        db = self.conn['news_db']
        self.collection = db['urls_tb']
def process_item(self,item,spider):
    for url in item['url']:
        self.collection.insert(dict({'url_key':url}))

    return item

查询结果:

_id:5f817cee0548593d37491c9f

url_key:“ https://example.com”

我只想再次插入唯一的URL,需要查找哪个URL是最近更新的URL。 谢谢

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)