在Node.js中使用Unicode字符解码HTTP标头

问题描述

我有一个运行以下cors中间件配置的Express服务器:

app.use(
  cors({
    origin: [
      /^http:\/\/localhost:\d+/,/^https:\/\/щоденниквражень\.укр/,/^https:\/\/xn--80adfecflqzagb7a3ioc\.xn--j1amh/,],}),);

({xn--80adfecflqzagb7a3ioc.xn--j1amhщоденниквражень.укр的Punycode表示形式

我已经从https://api.щоденниквражень.укр托管的页面https://щоденниквражень.укр发出了请求。大多数浏览器都在Origin标头中发送Punycode表示形式,该表示形式可以正常工作。

但是IE11发送原始https://щоденниквражень.укр。它应该与列表中的第二个正则表达式匹配,但是在服务器端,我从req.headers.origin获得了以下标头值:
Origin: https://Ñ Ð¾Ð´ÐµÐ½Ð½Ð¸ÐºÐ²ÑаженÑ.ÑкÑ
显然,它无法匹配任何正则表达式(某些字符可能显示不正确,但您知道了-字符集是错误的)。

是否可以解决此问题?我想我可能应该设置编码-但我不知道在哪里进行编码以及选择哪种编码。任何帮助表示赞赏!

解决方法

首先,问题不在于字符集。由于某种原因,Node.js无法处理西里尔字母,并且它们被错误地解码。我没有找到解决此问题的合适方法,因此,如果有人在这里发布它,我将非常高兴:)

但是我有一个解决方法。我找到了网站https://dom.hastin.gs/files/utf8/#,该网站可以修复我的Origin的值并将其设置为https://щоденниквражень.укр。我在DevTools中签出了它的源代码,它使用了一些库文件unicode.min.js(奇怪的是,我还没有找到它的GitHub存储库或源代码)。这是该库的链接:https://dom.hastin.gs/files/utf8/unicode.min.js(以防万一,我在Google云端硬盘上做了备份:https://drive.google.com/file/d/1erDSjdEQL5tOAvodeaVdHfnx7CvKApmn/view?usp=sharing

现在,我可以在代码中使用该库来转换Origin字符串:

// Load Cyrillic characters
// Check out `Unicode.blocks` for a list of available blocks,// then call `Unicode.load(<START>,<END>)`
Unicode.load(1024,1279);

// Fix the string
Unicode.fix('https://щоденниквражень.укр'); // Returns 'https://щоденниквражень.укр'

我知道这不是适当的解决方案,但可以解决问题,希望对偶然发现此问题的任何人有所帮助。实际上,这是一个更普遍的问题:在Node.js的HTTP标头中处理非ASCII字符-与CORS并不严格相关。

更新:我已经通过美化程序运行了库代码,并研究了它的代码。作者的确做得很好,但是我认为,特别是对于解码HTTP标头的目的,这有点过头了。有很多提高性能和降低复杂性的机会,所以我建议每个想要使用该库的人看看代码并对其进行重构以更好地适合您的特定用例-这就是我所做的。我对结果感到满意,我认为可以将其声明为解决问题的好方法