问题描述
尝试从此链接https://www.atanet.org/onlinedirectories/tsd_view.php?id=3856获取网址
我使用以下公式:= VLOOKUP(“网站”,ImportXML(A1,“(// table [@ id ='tableTSDContent'] // tr)”),2,0) 但不幸的是,它不会提取URL。如果您能帮助我提取有问题的网址,我将不胜感激。
解决方法
我尝试使用APIPheny插件导入数据。 <h2>Online Directories Listing</h2>
之后,我看到一个单元格,上面写着“ Google bot被阻止”或类似的内容。
然后我转到该网站的robots.txt文件(https://www.atanet.org/robots.txt),该文件显示:
User-agent: *
Disallow: /onlinedirectories/tsd_view.php*
Disallow: /onlinedirectories/tsd_search.php*
Disallow: /onlinedirectories/tsd_listings/tsd_view.fpl*
Disallow: /onlinedirectories/tsd_listings/tsd_search.fpl*
Disallow: http://www.atanet.org/bin/mpg.pl/28644.html
Disallow: /onlinedirectories/tsd_corp_listings/*
Disallow: /bin
Disallow: /division_calendar
User-agent: Googlebot
Disallow: /onlinedirectories/tsd_view.php*
Disallow: /onlinedirectories/tsd_search.php*
Disallow: /onlinedirectories/tsd_listings/tsd_view.fpl*
Disallow: /onlinedirectories/tsd_listings/tsd_search.fpl*
Disallow: /*division_calendar*
Disallow: /*bin*
Disallow: http://www.atanet.org/bin/mpg.pl/28644.html
User-agent: ITABot
Disallow: /onlinedirectories
我还认为这意味着Google表格用户代理与搜索引擎(Googlebot)相同。如果是这种情况,那么在Google表格中,您的运气不好,因为不允许使用您想要的tsd_view.php
。之所以会这样放置,是因为他们不希望Google(或其他搜索引擎)将人们的联系信息编入索引。当然,如果您是恶意的网络爬虫,则可以忽略robots.txt,但Googlebot是一个不错的机器人。