是否有可能知道从文件中读取的长文本将在 C 中使用多少个字符?

问题描述

我知道在 C++ 中,你可以检查字符串的长度,但在 C 中,没有那么多。

是否可以知道文本文件文件大小,从而知道文件中有多少个字符?

是每个字符一个字节还是其他标头是否秘密存储,无论我是否设置?

由于性能原因,我希望避免在遍历文件时对每个字符执行空检查。

谢谢。

解决方法

您可以打开文件并读取所有字符并对其进行计数。

除此之外,没有完全可移植的方法来检查文件的长度——既不是在磁盘上,也不是根据将读取的字符数。这适用于文本文件和二进制文件。

How do you determine the size of a file in C? 介绍了一些陷阱。也许那里的解决方案之一适合您运行代码的系统子集;或者您可能喜欢使用 POSIX 或操作系统调用。


如评论中所述;如果问题背后的意图是读取字符并动态处理它们,那么即使您知道文件大小,您仍然需要检查读取错误,因为读取可能会失败。

,

字符(char 类型)是单字节值,如 C 标准 (see CHAR_BIT) 中所定义。 NUL character 也是一个字符,因此它也占用一个字节。

因此,如果您使用的是 ASCII 文本文件,则文件大小将是字节数,因此等于字符数。

如果您询问单个字符串在文件中的长度,那么您确实需要查找 NUL 和其他扩展字符字节并在此基础上计算字符串长度。您可能无法安全地假设只有一个 NUL 字符并且它位于文件的末尾,这取决于该文件的制作方式。也可以有您想要排除的换行符和其他扩展字符。您必须决定一个字符集,然后从该字符集开始计数。

此外,如果您正在处理包含以 Unicode 编码的多字节字符的文件,那么这将是一个不同的答案。您可以使用 different functions 读取使用多字节编码的文本文件。

因此答案将取决于您的文本文件使用的编码类型,以及您是计算字符还是字符串长度,这是两种不同的度量。