我有一个HTML文件(从Newegg)和他们的HTML组织如下。其规格表中的所有数据都是“desc”,而每个部分的标题都在“名称”中。下面是来自Newegg页面的两个数据示例。
<tr> <td class="name">Brand</td> <td class="desc">Intel</td> </tr> <tr> <td class="name">Series</td> <td class="desc">Core i5</td> </tr> <tr> <td class="name">Cores</td> <td class="desc">4</td> </tr> <tr> <td class="name">Socket</td> <td class="desc">LGA 1156</td>
<tr> <td class="name">Brand</td> <td class="desc">AMD</td> </tr> <tr> <td class="name">Series</td> <td class="desc">Phenom II X4</td> </tr> <tr> <td class="name">Cores</td> <td class="desc">4</td> </tr> <tr> <td class="name">Socket</td> <td class="desc">Socket AM3</td> </tr>
最后,我想要一个类的cpu(已经设置),包括一个品牌,系列,核心和套接字类型来存储每个数据。这是我可以想到的唯一的方式去做这个:
if(parsedDocument.xpath(tr/td[@class="name"])=='Brand'): cpu.brand = parsedDocument.xpath(tr/td[@class="name"]/nextsibling?).text