Node.js抓取中文网页乱码问题和解决方法

Node.js 抓取非 utf-8 的中文网页时会出现乱码问题，比如网易的首页编码是 gb2312，抓取时会出现乱码

代码如下:

request(url,function (err,res,body) { console.log(body) })

可以使用来解决

安装

代码如下:

同时我们顺带把 user-agent 修改一下，以防网站屏蔽：

代码如下:

function request (url,callback) { var options = { url: url, encoding: null, headers: headers } originRequest(options,callback) }

request(url,body) { var html = iconv.decode(body,'gb2312') console.log(html) })

使用 cheerio 解析 HTML

安装

代码如下:

输出如下

代码如下:

那么问题来了，$('h1').html() 输出的代码是经过 Unicode 编码的，网易变成了网易，给我们的字符处理带来了一些麻烦

代码如下:

改成

代码如下:

即可，完整代码如下：

代码如下:

var url = 'http://www.163.com'

request(url,'gb2312') var $ = cheerio.load(html,{decodeEntities: false}) console.log($('h1').text()) console.log($('h1').html()) })

让kindeditor显示高亮代码

kindeditor4.x代码高亮功能默认使用的是prettify插件，prett...

这一篇我将介绍如何让kindeditor4.x整合SyntaxHighlighter代...

js如何实现弹出form提交表单？（图文+视频）

相关文章