Scrapy错误:请求网址中缺少方案

问题描述

运行草率的程序时,我遇到一些网址问题

    ValueError: Missing scheme in request url: mailto:?body=https%3A%2F%2Fiview.abc.net.au%2Fshow%2Finsiders
[scrapy.core.scraper:168|ERROR] Spider error processing <GET https://iview.abc.net.au/show/four-corners/series/2020/video/NC2003H028S00> (referer: None)

这是我的设置:

"base_urls" : [
    {
      # Start crawling from 
      "url": "https://www.abc.net.au/",# Overwrite the default crawler and use th RecursiveCrawler instead
      "crawler": "RecursiveCrawler",

在以下设置下可以正常工作

"base_urls" : [
    {
      # Start crawling from 
      "url": "https://www.afr.com/",

不确定我在这里缺少什么

解决方法

由于内容刮刮,您有不同的行为。问题在于,您的蜘蛛有时会尝试对此URL发出请求:

mailto:?body=https%3A%2F%2Fiview.abc.net.au%2Fshow%2Finsiders

正确的URL可能是这样:

https://iview.abc.net.au/show/insiders

您可能是在刮取了错误的字段,或者在检索此“ URL”的站点中有错误。

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...