代码点和UTF-16代码单元是同一回事吗？

问题描述

当前，我将使用Azure和GCP转换API，它们都基于“代码点”来计算字符数。

与此同时，在尝试向其发送文本之前，我也试图计算node.js服务器上的字符数。我计算字符数的方法是简单的Javascript的length属性，如下所示：

var originalText = 'hello 世界';
var textLen = originalText.length; //this is the right way to count the number of 'code point's?
// send a request to azure/gcp translation api
makeTranslationRequest(originalText)

我研究了这个length关键字，this doc说length计数UTF-16代码单元，对我来说意义不大。

代码点和UTF-16代码单元是否相同？

如果没有，我如何计算Javascript（node.js）的一个文本中的代码点数？

解决方法

不，它们是不同的。我知道，MDN使用了很少使用的“代码单位”一词，这使很多人感到困惑。

代码点是给Unicode元素（字符）的编号。这与编码无关，可以高达0x 10FFFF。 UTF-32代码单元等效于Unicode代码点（如果使用正确的字节序）。

UTF-16中的代码单位是16位数据的单位。使用16位数据有助于我们忽略字节序（但是当您读取字节时，请记住这一额外的困难）。 UTF-16使用1或2个代码单元来描述一个代码点，具体取决于其值。

低于（或等于）0xFFFF（Unicode的旧限制/期望，这种数字足以编码所有字符）的代码点仅使用1个代码单位，并且其值与代码点相同。

Unicode扩展了代码点空间，因此现在0x010000..0x10FFFF之间的代码点需要2个代码单元（并且我们使用“代理”来编码此类字符），总共4个字节。

因此，代码点与代码单位不同。对于UTF-16，代码单位为16位长，代码点可以为1或2个代码单位。

注意：字符宽度和字素（印刷字符）数量与代码点无关：某些字符具有“双倍宽度”，许多代码点正在组合字符，从而修改了先前的字符（例如，通过添加重音符号）。 / p>

如何计算代码点？

我将遍历每个代码单元，并仅对0xDC00..0xDFFF范围之外的代码单元计数。这应该是正确的代码点数（假设一个有效的Unicode字符串，因此总是一对低和高替代）。

character javascript translation unicode utf-16