C++ Eigen 执行时间差

问题描述

所以我在我的应用程序中计算了很多统计距离,用 C++ 编写 (11/14)。我使用 Eigen 库进行线性代数计算。我的代码最初是在 macOS 上编译的,尤其是 BigSur。由于我需要使我的结果可重现,我试图在其他操作系统下获得相同的结果,尤其是 Fedora 32。但是,结果存在显着差异,在尝试了各种不同的事情后,我无法做出任何具体贡献。

所以我做了一个示例代码...

#include <iostream>
#include <chrono>
#include <Eigen/Core>
#include <Eigen/Dense>
using namespace std;
using namespace std::chrono;
using namespace Eigen;

int main()
{
  MatrixXd cov(2,2);
  cov << 1.5,0.2,1.5;
  VectorXd mean(2),ne(2);
  mean << 10,10;
  ne << 10.2,10.2;
  
  auto start = high_resolution_clock::Now();
  for(int i=0;i<2000000;i++) {
    MatrixXd icov=cov.inverse();
    VectorXd delta=ne-mean;
    double N0=delta.transpose()*(icov*delta);
    double res=sqrtf(N0);
  }
  auto stop = high_resolution_clock::Now();
  
  cout << "Mahalanobis calculations in "
       << duration_cast<milliseconds>(stop - start).count()
       << " ms." << endl;
  
  return 0;
}

这是用

编译的
clang++ -std=c++14 -w -O2 -I'....Eigen/include' -DNDEBUG -m64 -o benchmark benchmark.cpp

在 macOS 和 Fedora32 上。是的,我在 Fedora 上下载并安装了 clang,只是为了确保我使用的是相同的编译器。在 macOS 上,我有 clang 版本 12.0.0,在 Fedora 10.0.1 上!

这些测试用例之间的差异是 2x

macOS:

Mahalanobis calculations in 2833 ms.

Fedora:

Mahalanobis calculations in 1490 ms.

说到我的具体应用,相差几乎是 30 倍,这很不寻常。与此同时,我检查了以下内容

  • OpenMP 支持 - 尝试打开和关闭、编译时间和运行时间(在测试代码块之前设置线程数)
  • 各种编译标志和架构
  • 为 macOS 添加 OpenMP 支持
  • 使用 EIGEN_USE_BLAS、EIGEN_USE_LAPACKE 和 EIGEN_DONT_ParaLLELIZE 标志进行调整

没有任何帮助。任何想法问题出在哪里? 也许与内存管理有关?

解决方法

最后,为所有遇到相同问题的人回答问题。问题在于内存管理。正如有人指出的那样,动态分配的特征对象和静态分配的特征对象之间存在很大差异。所以

MatrixXd cov(2,2);

往往比

慢得多
Matrix<double,2,2> cov;

因为第一种方法使用堆来动态分配所需的内存。归根结底,这一切都取决于操作系统处理内存的方式。 Linux 似乎比 macOS 或 Windows 做得更好(实际上并不奇怪)。

我知道不可能总是使用 Matrix2d 而不是旧的 MatrixXd。一些开发人员甚至报告说 Eigen 矩阵数学往往比他们自己自制的简单解决方案慢,但这归结为选择自己做所有事情,或者采用通用线性代数库。取决于你在做什么...