网页抓取时如何获取HTML代码而不是源代码?

问题描述

当前,我正在使用幻影JS并返回页面内容,但是这将返回源代码,而不是当前页面的HTML。

网站加载,然后产品列表加载。产品列表不是源代码的一部分,并且在请求页面时不会返回。内容。 显然,这是Phantom JS的常见问题。

有人对其他方法/软件包有什么建议吗,它将返回当前的Page HTML。

我的项目是C#Windows窗体项目。

非常感谢

解决方法

WebClient WC = new WebClient();
string JSON = WC.DownloadString(url);
Object onject = JsonConvert.DeserializeObject<List<JJs.ITEMS>>(JSON);

最后转到记录在网络ant的XHR选项卡中的请求,它返回该网页用于生成产品列表的数据的JSON文件

,

尝试使用selenium webdriver并使用WebDriverWait捕获加载的产品列表,这是最简单的选择...另一个选项尝试对HTTP请求进行反向工程,看看是否可以在后台模拟JSON文件请求。