如何在C中读取5个字节到有意义的uint64_t?

问题描述

| 我需要分配一个
uint64_t[1e9]
数组来计数某物,并且我知道这些项在(0,2 ^ 39)之间。 所以我想为数组分配1个5 * 1e9字节。 然后我发现,如果要使uint64_t有意义,则很难通过字节顺序。 应该有两种方式。 一种是首先检查字节序,以便我们可以将2个5个字节“ 2”个到整个8个字节的第一个或最后一个。 另一种方法是使用5位移位,然后将它们或在一起。 我认为前者应该更快。 因此,在GCC或libc或GNU系统下,是否有任何头文件指示当前系统是Little Endian还是Big Endian?我知道x86_64是Little Endian,但是我不喜欢编写不可移植的代码。 当然,欢迎其他任何想法。 加: 我需要使用数组来计数使用D-left哈希的许多字符串。我计划将21bit用于密钥,将18bit用于计数。     

解决方法

当您说“更快”时...该代码多久执行一次? times3ѭ的5倍加上
|
的成本可能不到100ns。因此,如果该代码执行了10 \'000次,则总共要花1(一)秒。 如果执行代码的次数更少,并且您需要花费超过1秒钟的时间来实现字节序清理解决方案,那么您在浪费每个人的时间。 话虽这么说,但解决问题的方法很简单:
int a = 1;
char * ptr = (char*)&a;
bool littleEndian = *ptr == 1;
现在,您只需要一台大型endian机器和几个测试用例,即可确保您的
memcpy
解决方案正常工作。请注意,在两种情况之一中,您需要调用
memcpy
五次才能对字节重新排序。 或者您可以简单地移动或五次... 编辑我想我误会了你的问题。您是说要使用
uint64_t
的最低5个字节(= 40位)作为计数器,是吗? 因此,该操作将执行很多次。同样,
memcpy
完全没有用。让我们以数字
0x12345678
(32位)为例。在内存中,看起来像这样:
0x12 0x34 0x56 0x78    big endian
0x78 0x56 0x34 0x12    little endian
如您所见,字节已交换。因此,要在两者之间进行转换,您必须使用移位或字节交换。
memcpy
不起作用。 但这实际上并不重要,因为CPU会为您解码。您要做的就是将位移到正确的位置。
 key = item & 0x1FFFFF
 count = (item >>> 21)
阅读和
 item = count << 21 | key
来写。现在,您只需要从五个字节中构建密钥,就可以完成:
 key = (((hash[0] << 8) | (hash[1]<<8)) | ....
编辑2 看来您有一个40位int数组,并且想要读取/写入该数组。 我有两个解决方案:只要在不同字节序的CPU之间不复制数据,使用
memcpy
应该可以工作(请参阅:将数据保存到磁盘或从磁盘加载数据时)。但是对于如此庞大的数组,函数调用可能太慢。 另一种解决方案是使用两个数组:
int lower[];
unit8_t upper[]
即:将位33-40保存在另一个数组中。要读取/写入值,需要一个shift +
or
。     ,如果将数字视为数字,而不是字节数组,则您的代码将不可识别。因此,我将寻求转变或解决方案。 话虽如此,我真的没听懂您要做什么?您是否真的需要10亿个条目(每个5个字节长)?如果您要采样的数据稀疏,则可以分配更少的内存,这可能会使您大失所望。     ,好吧,我只是发现header19ѭ附带了内核头文件。 内联memcpy到
while(i<x+3){++*i=++*j}
可能仍然较慢,因为高速缓存操作比寄存器慢。
memcpy
的另一种方法是:
union dat {
 uint64_t a;
 char b[8];
} d;