问题描述
||
我工作的公司正在将其前端切换到gwt应用程序,我想知道是否可以编写一个脚本(无论是bash和wget还是cURL,还是java或其他任何东西),使我能够下载该脚本的实际内容。 gwt Web应用程序。因为现在,如果我尝试使用诸如wget之类的命令,我只会下载带有一些javascript函数的页面,而没有下载实际的页面内容(我感兴趣的内容)。我在质量检查方面,所以我想我想知道是否有可能在没有直接访问开发人员代码的情况下执行此类任务。
谢谢!
解决方法
GWT使用javascript构建页面(DOM)。因此,您将需要呈现初始DOM的东西,运行更改/产生元素的javascript,然后输出整个DOM。基本上,您需要一个浏览器。
最好的选择是寻找可保存整个页面的浏览器扩展。
,这是有关AJAX应用程序中可爬网性的一些一般背景。
http://code.google.com/web/ajaxcrawling/docs/getting-started.html
这是一个示例servlet的代码,该示例servlet通过将页面馈入HTMLUnit,导致呈现所有HTML,然后将结果发送回Web搜寻器来实现该可爬性规范。
http://code.google.com/p/google-web-toolkit/source/browse/branches/crawlability/samples/showcase/src/com/google/gwt/sample/showcase/server/CrawlServlet.java?r= 6211
,我找到了一种使用硒的工具的解决方案。我可以轻松地单击gwt应用程序,记录我在应用程序中的活动以备将来使用,并获取由应用程序生成的实际html,然后我可以对其进行解析以获取所需的内容并采取相应的措施。唯一的小缺点是,硒确实需要使用浏览器,这与htmlunit或httpunit不同。