从表中提取带有= VLOOKUP的URL

问题描述

尝试从此链接https://www.atanet.org/onlinedirectories/tsd_view.php?id=3856获取网址

enter image description here

我使用以下公式:= VLOOKUP(“网站”,ImportXML(A1,“(// table [@ id ='tableTSDContent'] // tr)”),2,0) 但不幸的是,它不会提取URL。如果您能帮助我提取有问题的网址,我将不胜感激。

解决方法

我尝试使用API​​Pheny插件导入数据。 <h2>Online Directories Listing</h2>之后,我看到一个单元格,上面写着“ Google bot被阻止”或类似的内容。

然后我转到该网站的robots.txt文件(https://www.atanet.org/robots.txt),该文件显示:

User-agent: *
Disallow: /onlinedirectories/tsd_view.php*
Disallow: /onlinedirectories/tsd_search.php*

Disallow: /onlinedirectories/tsd_listings/tsd_view.fpl*
Disallow: /onlinedirectories/tsd_listings/tsd_search.fpl*
Disallow: http://www.atanet.org/bin/mpg.pl/28644.html

Disallow: /onlinedirectories/tsd_corp_listings/*

Disallow: /bin
Disallow: /division_calendar


User-agent: Googlebot
Disallow: /onlinedirectories/tsd_view.php*
Disallow: /onlinedirectories/tsd_search.php*

Disallow: /onlinedirectories/tsd_listings/tsd_view.fpl*
Disallow: /onlinedirectories/tsd_listings/tsd_search.fpl*

Disallow: /*division_calendar*

Disallow: /*bin*

Disallow: http://www.atanet.org/bin/mpg.pl/28644.html

User-agent: ITABot
Disallow: /onlinedirectories

我还认为这意味着Google表格用户代理与搜索引擎(Googlebot)相同。如果是这种情况,那么在Google表格中,您的运气不好,因为不允许使用您想要的tsd_view.php。之所以会这样放置,是因为他们不希望Google(或其他搜索引擎)将人们的联系信息编入索引。当然,如果您是恶意的网络爬虫,则可以忽略robots.txt,但Googlebot是一个不错的机器人。