在node.js中进行屏幕抓取的最优雅的方法是什么?

问题描述

| 我正在黑客入侵一个Web应用程序,该应用程序在node.js中使用了广泛的屏幕抓取功能。我觉得我在每个角落都在与潮流作斗争。必须有一个更简单的方法来执行此操作。最值得注意的是,有两件事很令人讨厌: Cookie传播。我可以从响应头中拉出'set-cookie \'数组,但是执行字符串操作以将cookie从数组中解析出来感觉非常骇人。 重新导向。我希望每个请求在返回302状态代码时都遵循重定向。 我遇到了看起来有用的两件事,但最终还是无法使用: http://zombie.labnotes.org/,但是它不支持HTTPS,所以我不能使用它。 http://www.phantomjs.org/,但无法使用,因为它未(似乎)与node.js集成。对于我正在做的事情,它也非常重要。 是否有任何JavaScript屏幕抓取风格的库来传播cookie,遵循重定向支持HTTPS?关于如何使之更容易的任何指示?     

解决方法

我实际上现在有一个刮板库https://github.com/mikeal/spider,它很不错,您可以使用jquery和路由。 欢迎反馈:)     ,您可能想从mikeal中查看https://github.com/mikeal/request,我刚刚和他聊天了,他说聊天室目前不处理cookie,但是您可以编写一个子模块来为您处理同时。 关于重定向它处理精美:)     ,原来有人为node.js制作了phantomjs模块: https://github.com/sgentle/phantomjs-node 尽管phantom相当繁重,但它也支持SSL,cookie和典型浏览器支持的所有其他功能(毕竟,因为它是Webkit浏览器)。 试一试,可能正是您想要的。     

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...