ANSI C UTF-8问题

首先,我使用ANSI C(不是C和任何非标准库,如MS CRT或glibc,……)开发一个独立的平台库.

经过几次搜索后,我发现在ANSI C中进行国际化的最佳方法之一是使用UTF-8编码.

在utf-8中：

> strlen(s)：始终计算字节数.
> mbstowcs(NULL,s,0)：可以计算字符数.

但是当我想随机访问utf-8字符串的元素(字符)时,我遇到了一些问题.

在ASCII编码中：

char get_char(char* assci_str,int n)
{
  // It is very FAST.
  return assci_str[n];
}

在UTF-16/32编码中：

wchar_t get_char(wchar_t* wstr,int n)
{
  // It is very FAST.
  return wstr[n];
}

在这里我的UTF-8编码问题：

// What is the return type?
// Because sizeof(utf-8 char) is 8 or 16 or 24 or 32.
/*?*/ get_char(char* utf8str,int n)
{
  // I can found Nth character of string by using for.
  // But it is too slow.
  // What is the best way?
}

谢谢.

解决方法

也许你有点错误地考虑这个问题. UTF-8是一种编码,可用于序列化数据,例如将其写入文件或网络.然而,这是一个非常重要的编码,并且原始的Unicode代码点串可以以任意数量的编码字节结束.

你应该做的,如果你想处理文本(给定你的描述),就是在内部存储原始的固定宽度字符串.如果您要使用Unicode(您应该),那么每个代码点需要21位,因此最接近的整数类型是uint32_t.简而言之,将所有字符串存储在内部作为整数数组.然后,您可以随机访问每个代码点.

只在写入文件或控制台时编码为UTF-8,在读取时从UTF-8解码.

顺便说一句,Unicode代码点距离角色还有很长的路要走.角色的概念与高级别相比具有简单的一般机制. (例如“a”“重音坟墓” – 两个代码点,多少个字符？)

ANSI C UTF-8问题

解决方法

相关文章