选择一个Python webscraping框架来处理纯基于Java的网站

问题描述

|| 我是一位专门从事网络抓取的Python程序员，由于没有发现任何相关问题，因此我不得不问这个问题。我想知道什么是流行的，文档齐全的框架，可用于Python抓取基于Java脚本的纯网站？目前，我知道Mechanize和Beautiful Soup，但是它们不与Javascript交互，因此我正在寻找与众不同的东西。我更喜欢机械化的优雅和简单的东西。我已经做了一些研究，到目前为止，我已经听说过硒，硒2和风车。现在，我正在尝试从这三个中选择一个，但我不知道其他任何一个。那么，谁能指出这些框架的功能，又有什么不同呢？我听说Selenium使用单独的服务器来完成所有任务，而且功能似乎很丰富。 Selenium和Selenium2之间的核心区别是什么？如果我错了，请告知我，如果您知道任何其他框架，请务必提及它的功能和其他细节。谢谢。

解决方法

在使用诸如Selenium之类的专门用于前端测试而不是用于抓取的工具之前，您应该先查看站点数据的来源。找出发出了哪些XHR请求，它们采用什么参数以及结果是什么。例如，您在评论中提到的网站使用JavaScript中的许多参数发出POST请求，并显示结果。您可能只需要使用此POST请求的结果来获取数据。

java java python webscraping 一个基于基于处理处理处理框架框架框架网站网站选择选择选择