问题描述
我正在从表中抓取图像URL和文本,我想知道如何为缺少图像的单元格不收集任何信息(或至少不收集URL)。我不想删除任何行,因为我想按原样重现该表。这是an example的表格,其中缺少图片,并且html位于右侧。
我在Google表格中使用了以下内容:
=importxml(D1,"//div[@class='colsx immagine']/img/@src")
=importxml(D1,"//div[@class='coldx domanda']")
,如果所有图像都在那里(如此page),则可以很好地获取每一行的图像URL和文本。但是,如果缺少任何图像,那么我将为下表中的(错误)图像收集一个URL。如果没有img网址,我想跳过网址收集。
我刚刚开始学习xpath,我怀疑我需要使用|
或not
来解决此问题,但是由于我没有尝试过,所以需要一些帮助。
谢谢
解决方法
您可以通过添加另一个谓词来解决此问题。因此,假设您想用图片列出//div[@class='lista']
的网址,则可以使用
=importxml(D1,"//div[@class='lista' and div/img]/div[@class='colsx immagine']")
=importxml(D1,"//div[@class='lista' and div/img]/div[@class='coldx domanda']")
=importxml(D1,"//div[@class='lista' and div/img]/div[@class='coldx risposta active gius']")
等等。
这应该跳过所有没有img标签的“ lista” div类,并选择其URL。