在编译时初始化非常大的 C++ std::bitset

问题描述

我想存储一个 2¹⁶ 位的静态常量位集，其中包含永远不会改变的 1 和 0 的特定序列。

我想过使用 this post 提议的初始化字符串：

std::bitset<1<<16> myBitset("101100101000110 ... "); // the ellipsis are replaced by the actual 65536-character sequence

但是编译器 (VS2013) 给了我 "string too long" 错误。

更新

我尝试将字符串拆分为更小的块，如上面链接的帖子中所建议的，如下所示：

std::bitset<1<<16> myBitset("100101 ..."
                            "011001 ..."
                            ...
                            );

但我收到错误 C1091：编译器限制：字符串长度超过 65535 字节。我的字符串是 65536 字节（技术上是 65537，带有 EOS 字符）。

我还有哪些选择？

更新

感谢 luk32，这是我最终得到的漂亮代码：

const std::bitset<1<<16> bs = (std::bitset<1<<16>("101011...")
    << 7* (1<<13)) | (std::bitset<1<<16>("110011...")
    << 6* (1<<13)) | (std::bitset<1<<16>("101111...")
    << 5* (1<<13)) | (std::bitset<1<<16>("110110...")
    << 4* (1<<13)) | (std::bitset<1<<16>("011011...")
    << 3* (1<<13)) | (std::bitset<1<<16>("111011...")
    << 2* (1<<13)) | (std::bitset<1<<16>("111001...")
    << 1* (1<<13)) | std::bitset<1<<16>("1100111...");

解决方法

您并没有真正拆分文字。无论如何，它都会被连接起来进行编译。您受到编译器的限制。我认为没有办法在 MSVC 中增加此限制。

您可以将其拆分为两个文字，初始化两个 bitset，将第一部分和 OR 与另一部分移动。

类似于：

#include <iostream>
#include <string>
#include <bitset>

 
using namespace std;
int main()
{
    std::bitset<8> dest("0110");
    std::bitset<8> lowBits("1001");

    dest <<= dest.size()/2;
    dest |= lowBits;
    std::cout << dest << '\n';
}

如果您查看 clang compiler output at -02，它会针对加载 105 进行优化，即 01101001。

我的测试表明，如果您将 8 换成 1<<16，它会使用 SSE，所以这应该是非常安全的赌注。它没有像 8 或 16 那样删除文字，因此可能会有一些运行时开销，但我不确定您是否可以做得更好。

编辑：

我做了更多的测试，这里是my playground：

#include <iostream>
#include <string>
#include <bitset>
 

using namespace std;
int main()
{
    //static const std::bitset<16> set1( "01100110011001100110011001100110");
    static const std::bitset<16> set2(0b01100110011001100110011001100110);

    static const std::bitset<16> high(0b01100110);
    static const std::bitset<16> low (0b01100110);
    static const std::bitset<16> set3 = (high << 8) | low;
    std::cout << (set3 == set2) << '\n';
}

我无法在除 clang 之外的任何编译器上对 const char* 构造函数进行编译时优化，而且最多可以运行 14 个字符。一堆从 bitset 初始化的 unsigned long long 并将它们移动并组合在一起：

static const std::bitset<128> high(0b0110011001100110011001100110011001100110011001100110011001100110);
static const std::bitset<128> low (0b1001100110011001100110011001100110011001100110011001100110011001);
static const std::bitset<128> set3 = (high << high.size()/2) | low;
std::cout << set3 << '\n';

这使得编译器坚持使用二进制数据存储。如果可以使用带有 constexpr 的更新的编译器，我认为可以将其声明为由 bitset 构造的 ull 数组，并通过 {{1} } 函数并绑定到 constexpr 变量，这应该确保最佳优化。编译器仍然可能对你不利，但没有理由。也许即使没有 constexpr const，它也会生成非常优化的代码。

您可以考虑完全跳过编译，只需：

将数据组合成一个目标文件（段 ffmpeg -i P33_R.mp4 -vcodec libx264 -crf 28 output1.mp4），导出它的符号及其大小。
在 .rodata 文件中将这些符号声明为 extern const。
使用这些符号并将您的程序链接到此目标文件。

我手边没有 MASM32 来写一个真正有效的完整答案，但我经常将这种技术与 GAS 和 LD 一起使用，它可以剔除很多问题。（按需加载、其他独立数据文件的安全描述符、极快的编译时间...）

请注意，这就是 VS 资源编译器所做的，简而言之...因此您可以将数据作为资源包含并获得指向它的指针。

不可能有这样的静态 std::bitset，因为：

没有对 constructor receiving const char* 的 constexpr 支持
VS 2013 非常古老且doesn't even support constexpr。它只有部分 C++11 支持

如果允许在运行时进行构造，则只需将字符串文字拆分为多个小于 2048 个字符的较小字符，以防总长度小于 65536：

ANSI 兼容性要求编译器在连接后接受字符串文字中最多 509 个字符。 Microsoft C 中允许的字符串文字的最大长度约为 2,048 字节。但是，如果字符串文字由用双引号括起来的部分组成，预处理器会将这些部分连接成一个字符串，并且对于连接的每一行，它会在总字节数中增加一个额外的字节。

[...]

虽然单个带引号的字符串不能超过 2048 个字节，但可以通过连接字符串构造大约 65535 个字节的字符串文字。

https://docs.microsoft.com/en-us/cpp/c-language/maximum-string-length?view=msvc-160

如前所述，必须手动连接更长的字符串。这里

const int LENGTH = 1 << 16;
std::bitset<LENGTH> myBitset(
    "100101 ..."  // 2ᴺ bits
    "011001 ..."  // 2ᴺ bits
    ...
    "001011 ...",// must be one shorter than the previous lines: 2ᴺ⁻¹ bits
    LENGTH - 1    // size
);
myBitset[LENGTH - 1] = 1; // set the final bit

或者只使用数组而不是字符串文字：

static const char BITSET[LENGTH] = {
    '1','0','1',...
    ...
    '0','0'
};
std::bitset<LENGTH> myBitset(BITSET,sizeof(BITSET));

c++compile-time-constant initialization large-data std-bitset

在编译时初始化非常大的 C++ std::bitset

问题描述

解决方法

相关问答