如何确定 Firebird 数据库的字符集

问题描述

我已经阅读了 following thread 并且我能够制作一个转换脚本(基于 C#),将我所有的 charset=NONE 数据库转换为 charset=UTF8 并且其中大部分都运行良好(我仍然有一些特殊情况,其中字符被转换为奇怪的符号,但这是微不足道的)。

我的问题是我有很多备份数据库文件 (*.fbk),我不确定这是否是 {{1 }} 或 UTF8。在理想情况下,我的代码会根据 NONE 文件的格式从文件恢复数据库后处理转换,因此我只在必要时和恢复后进行转换。

这可能吗?或者有没有办法在恢复数据库时定义 fbk(通过 charset 或通过 ADO.NET 提供程序)?

解决方法

通常,Firebird 数据库没有单个字符集。每一列都可以有自己的字符集。因此,您唯一能做的就是尝试使用启发式方法。

  1. 使用数据库默认字符集。需要明确的是,数据库默认字符集仅在未指定显式字符集的情况下创建新列时使用。一个数据库的默认字符集是UTF8是完全有可能的,而所有列的字符集都是WIN1251!

    您可以通过以下查询找到数据库默认字符集:

    select RDB$CHARACTER_SET_NAME from RDB$DATABASE 
    

    注意:如果结果为 NULL,则表示默认字符集为 NONE。

  2. 计算 CHAR、VARCHAR 和 BLOB SUB_TYPE TEXT 列的不同字符集,看看哪个出现最多:

    select 
      coalesce(cs.RDB$CHARACTER_SET_NAME,'NONE') as CHARSET,count(*) as CHARSET_COUNT
    from RDB$RELATIONS r
    inner join RDB$RELATION_FIELDS rf
      on rf.RDB$RELATION_NAME = r.RDB$RELATION_NAME
    inner join RDB$FIELDS f 
      on f.RDB$FIELD_NAME = rf.RDB$FIELD_SOURCE
    left join RDB$CHARACTER_SETS cs
      on cs.RDB$CHARACTER_SET_ID = f.RDB$CHARACTER_SET_ID 
    where coalesce(r.RDB$SYSTEM_FLAG,0) = 0
    and r.RDB$VIEW_BLR is null
    and (f.RDB$FIELD_TYPE in (14,37) or f.RDB$FIELD_TYPE = 261 and f.RDB$FIELD_SUB_TYPE = 1)
    group by 1
    order by 2 desc
    

顺便说一句,请注意,如果客户端使用了连接字符集 NONE,那么一列内容的实际字符集完全有可能与该列的定义字符集不匹配。