mysqli_set_charset和SET NAMES使用抉择及优劣分析

最近公司组织了个PHP安全编程的培训,其中涉及到一部分关于MysqL的”SET NAMES”和MysqL_set_charset (MysqLi_set_charset)的内容:
说到,尽量使用MysqLi_set_charset(MysqLi:set_charset)而不是”SET NAMES”,当然,这个内容PHP手册中也有叙及,但是却没有解释为什么.

最近有好几个朋友问我这个问题,到底为什么?


问的人多了,我也就觉得可以写篇blog,专门介绍下这部分的内容了.
首先,很多人都不知道”SET NAMES”到底是做了什么,
我之前的文章深入MysqL字符集设置中,曾经介绍过character_set_client/character_set_connection/character_set_results这三个MysqL的”环境变量”,这里再简单介绍下,
这三个变量,分别告诉MysqL服务器,客户端的编码集,在传输给MysqL服务器的时候的编码集,以及期望MysqL返回的结果的编码集.
比如,通过使用”SET NAMES utf8″,就告诉服务器,我用的是utf-8编码,我希望你也给我返回utf-8编码的查询结果. 一般情况下,使用”SET NAMES”就足够了,也是可以保证正确的. 那么为什么手册又要说推荐使用MysqLi_set_charset(PHP>=5.0.5)呢?
首先,我们看看MysqLi_set_charset到底做了什么(注意星号注释处,MysqL_set_charset类似):
<div class="codetitle"><a style="CURSOR: pointer" data="13073" class="copybut" id="copybut13073" onclick="doCopy('code13073')"> 代码如下:
<div class="codebody" id="code13073">
//PHP-5.2.11-SRC/ext/MysqLi/MysqLi_nonapi.c line 342
PHP_FUNCTION(MysqLi_setcharset)
{
MY
MysqLMysqL;
zval
MysqL_link;
char cs_name = NULL;
unsigned int len;
if (zend_parse_method_parameters(ZEND_NUM_ARGS() TSrmlS_CC,getThis()
,"Os",&MysqL_link,MysqLi_link_class_entry,&cs_name,&len) == FAILURE) {
return;
}
MysqLI_FETCH_RESOURCE(MysqL,MY_MysqL
,"MysqLi_link"
,MysqLI_STATUS_VALID);
if (MysqL_set_character_set(MysqL->MysqL,cs_name)) {
//* 调用libMysqL的对应函数
RETURN_FALSE;
}
RETURN_TRUE;
}

MysqL_set_character_set又做了什么呢?
<div class="codetitle"><a style="CURSOR: pointer" data="4787" class="copybut" id="copybut4787" onclick="doCopy('code4787')"> 代码如下:
<div class="codebody" id="code4787">
//MysqL-5.1.30-SRC/libMysqL/client.c,line 3166:
int STDCALLMysqL_set_character_set(MysqL
MysqL,const char cs_name)
{
structcharset_info_st
cs;
const char save_csdir= charsets_dir;
if (MysqL->options.charset_dir)
charsets_dir= MysqL->options.charset_dir;
if (strlen(cs_name) < MY_CS_NAME_SIZE &&
(cs= get_charset_by_csname(cs_name,MY_CS_PRIMARY,MYF(0))))
{
char buff[MY_CS_NAME_SIZE + 10];
charsets_dir= save_csdir;
/
Skip execution of "SET NAMES" for pre-4.1 servers */
if (MysqL_get_server_version(MysqL) < 40100)
return 0;
sprintf(buff,"SET NAMES %s",cs_name);
if (!MysqL_real_query(MysqL,buff,strlen(buff)))
{
MysqL->charset= cs;
}
}
//以下省略

我们可以看到,MysqLi_set_charset除了做了”SET NAMES”以外,还多做了一步:
<div class="codetitle"><a style="CURSOR: pointer" data="82761" class="copybut" id="copybut82761" onclick="doCopy('code82761')"> 代码如下:
<div class="codebody" id="code82761">
sprintf(buff,strlen(buff)))
{
MysqL->charset= cs;
}

而对于MysqL这个核心结构的成员charset又有什么作用呢?


这就要说说MysqL_real_escape_string()了,这个函数MysqL_escape_string的区别就是,它会考虑”当前”字符集. 那么这个当前字符集从哪里来呢?
对了,你猜的没错,就是MysqL->charset.
MysqL_real_string在判断宽字符集的字符的时候,就根据这个成员变量来分别采用不同的策略,比如如果是utf-8,那么就会采用libMysqL/ctype-utf8.c.
看个实例,MysqL连接字符集是latin-1,(经典的5c问题):
<div class="codetitle"><a style="CURSOR: pointer" data="22282" class="copybut" id="copybut22282" onclick="doCopy('code22282')"> 代码如下:<div class="codebody" id="code22282">
<?PHP
$db = MysqL_connect('localhost:3737','root','123456');
MysqL_select_db("test");
$a = "\x91\x5c";//"慭"的gbk编码,低字节为5c,也就是ascii中的"\"
var_dump(addslashes($a));
var_dump(MysqL_real_escape_string($a,$db));
MysqL_query("set names gbk");
var_dump(MysqL_real_escape_string($a,$db));
MysqL_set_charset("gbk");
var_dump(MysqL_real_escape_string($a,$db));
?>

因为,“慭”的gbk编码低字节为5c,也就是ascii中的”\”,而因为除了MysqL(i)_set_charset影响MysqL->charset以外,其他时刻MysqL->charset都为认值,所以,结果就是:
<div class="codetitle"><a style="CURSOR: pointer" data="3719" class="copybut" id="copybut3719" onclick="doCopy('code3719')"> 代码如下:<div class="codebody" id="code3719">
$ PHP -f 5c.PHP
string(3) "慭\"
string(3) "慭\"
string(3) "慭\"
string(2) "慭"大家现在很清楚了吧?

相关文章

统一支付是JSAPI/NATIVE/APP各种支付场景下生成支付订单,返...
统一支付是JSAPI/NATIVE/APP各种支付场景下生成支付订单,返...
前言 之前做了微信登录,所以总结一下微信授权登录并获取用户...
FastAdmin是我第一个接触的后台管理系统框架。FastAdmin是一...
之前公司需要一个内部的通讯软件,就叫我做一个。通讯软件嘛...
统一支付是JSAPI/NATIVE/APP各种支付场景下生成支付订单,返...