如何在 C++ Windows 中检测非 ascii 字符?

问题描述

我只是尝试在 Windows 上的 C++ 程序中检测非 ASCII 字符。 使用类似 isascii() 或 :

bool is_printable_ascii = (ch & ~0x7f) == 0 && 
                          (isprint() || isspace()) ;

不起作用,因为非 ascii 字符在 getchar() 执行其操作之前或同时被映射到 ascii 字符。例如,如果我有一些代码,如:

#include <iostream>
using namespace std;
int main()
{
    int c;
    c = getchar();
    cout << isascii(c) << endl;
    cout << c << endl;
    printf("0x%x\n",c);
    cout << (char)c;
    return 0;
}

然后输入一个?(因为我现在很开心),输出

1
63
0x3f
?

此外,如果我给程序提供一些东西(超出扩展的 ascii 范围(代码页 437)),比如“Ĥ”,我得到的输出

1
72
0x48
H

这适用于类似的输入,例如 Ĭ 或 ō(转到 I 和 o)。所以这似乎是算法,而不仅仅是 mojibake 或其他东西。使用诸如

之类的程序快速检查python(通过同一终端)
i = input()
print(ord(i))

给我预期的实际十六进制代码而不是 ascii 映射的代码(所以它不是代码页或终端(?))。这让我相信 getchar() 或 C++ 编译器(在 VS 编译器和 g++ 上测试)正在做一些时髦的事情。我还尝试使用 cin 和许多其他替代方法。请注意,我已经在 Linux 上尝试过这个,但我无法重现这个问题,这让我倾向于相信它与 Windows (10 pro) 有关。谁能解释一下这里发生了什么?

解决方法

尝试将 getchar() 替换为 getwchar(); 我认为您是对的,这是一个仅限 Windows 的问题。

我认为问题在于 getchar(); 期望输入为 char 类型,它是 8 位并且仅支持 ASCII。 getwchar(); 支持允许其他文本编码的 wchar_t 类型。 "?" 不是 ASCII,从这个页面: https://docs.microsoft.com/en-us/windows/win32/learnwin32/working-with-strings ,似乎 Windows 用 UTF-16 编码这样的扩展字符。我找不到 utf-16 表情符号的查找表,但我猜 utf-16 "?" 中的一个字节是 0x39,这就是为什么你看到打印出来的原因。

,

好的,我已经解决了这个问题。我不知道翻译模式

_setmode(_fileno(stdin),_O_WTEXT);

是解决方案。下面的链接基本上解释了有翻译模式,我认为第 5 阶段(字符集映射)解释了发生了什么。 https://en.cppreference.com/w/cpp/language/translation_phases