选择一个Python webscraping框架来处理纯基于Java的网站

问题描述

|| 我是一位专门从事网络抓取的Python程序员,由于没有发现任何相关问题,因此我不得不问这个问题。 我想知道什么是流行的,文档齐全的框架,可用于Python抓取基于Java脚本的纯网站?目前,我知道Mechanize和Beautiful Soup,但是它们不与Javascript交互,因此我正在寻找与众不同的东西。我更喜欢机械化的优雅和简单的东西。 我已经做了一些研究,到目前为止,我已经听说过硒,硒2和风车。 现在,我正在尝试从这三个中选择一个,但我不知道其他任何一个。 那么,谁能指出这些框架的功能,又有什么不同呢?我听说Selenium使用单独的服务器来完成所有任务,而且功能似乎很丰富。 Selenium和Selenium2之间的核心区别是什么?如果我错了,请告知我,如果您知道任何其他框架,请务必提及它的功能和其他细节。 谢谢。     

解决方法

        在使用诸如Selenium之类的专门用于前端测试而不是用于抓取的工具之前,您应该先查看站点数据的来源。找出发出了哪些XHR请求,它们采用什么参数以及结果是什么。 例如,您在评论中提到的网站使用JavaScript中的许多参数发出POST请求,并显示结果。您可能只需要使用此POST请求的结果来获取数据。