我可以在 Raspberry Pi 4 上使用 .NET SIMD 吗?

问题描述

我正在编写代码,将减去两个数组中的相应字节并计算超过给定阈值的结果字节数。 AFAIU,它真的会从 .NET SIMD 中受益,但是当我在 RaspBerry Pi 4 上编译 C# 时,System.Numerics.Vector.IsHardwareAccelerated 返回 false。

我的 dotnet 版本是 3.1.406,我已添加

  <PropertyGroup>
    <Optimize>true</Optimize>
  </PropertyGroup>

到 csproj 并运行 release 配置。

有什么方法可以在 RaspBerry Pi 4 上利用 .NET 中的 SIMD 支持?也许使用 .NET 5?

更新 我安装了 .NET 5 并尝试了 .NET Intrinsics,但都不支持

Console.WriteLine(System.Runtime.Intrinsics.Arm.AdvSimd.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Aes.IsSupported);  //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.ArmBase.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Crc32.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Dp.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Rdm.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha1.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha256.IsSupported); //false

我使用的是 32 位 Raspbian(Debian 衍生版),是否有可能需要 64 位版本才能运行?

附言澄清一下,在普通的 C# 中,算法看起来像这样:

        public static int ScalarTest(byte[] lhs,byte[] rhs)
        {
            var result = 0;

            for (int index = 0; index < lhs.Length; index++)
            {
                var a = lhs[index];
                var b = rhs[index];
                if (b > a)
                {
                    (b,a) = (a,b);
                }
                result += ((a - b) >= 16) ? 1 : 0;
            }

            return result;
        }

解决方法

尽管 API 已经完成并且甚至被记录在案,但仍然缺少实现。 Take a look. 8 字节 SIMD 向量几十年来一直是 NEON ISA 的重要组成部分(于 2005 年推出),但 .NET 运行时仅在为 ARM64(于 2013 年发布)编译时才实现它们。

我不在 Microsoft 工作,也不知道他们是如何编译二进制文件的,但源代码告诉他们,在为 ARM64 目标构建时,他们至少有一些对 NEON 的支持。如果您想要 .NET 中的这些内在函数,您可以尝试 64 位操作系统。

有一个变通方法 — 用 C++ 实现您对性能至关重要的部分,为 Linux 编译一个共享库,然后使用 [DllImport] 从 .NET 使用这些函数。我已经构建了非平凡的 Linux 软件 (example),使用以下 gcc 标志来构建 DLL:-march=native -mfpu=neon-fp16 -mfp16-format=ieee -ffast-math -O3 -fPIC 这样它将适用于 32 位操作系统,并且不需要任何东西特别来自 .NET 运行时,我已经使用 .NET Core 2.1 进行了测试。

,

按照@Soonts 的回答,在切换到 64 位 Raspbian 之后,这是我在 NET 5 中得到的。我正在寻找的大多数指令都得到支持。

Console.WriteLine(System.Runtime.InteropServices.RuntimeInformation.OSDescription);
//Linux 5.4.51-v8+ #1333 SMP PREEMPT Mon Aug 10 16:58:35 BST 2020

Console.WriteLine(System.Runtime.InteropServices.RuntimeInformation.ProcessArchitecture);
//Arm64

Console.WriteLine(System.Environment.Is64BitOperatingSystem);           //true

Console.WriteLine(System.Numerics.Vector.IsHardwareAccelerated);        //true
Console.WriteLine(Vector<byte>.Count);                                  //16
Console.WriteLine(Vector<sbyte>.Count);                                 //16
Console.WriteLine(Vector<short>.Count);                                 //8
Console.WriteLine(Vector<ushort>.Count);                                //8
Console.WriteLine(Vector<int>.Count);                                   //4
Console.WriteLine(Vector<uint>.Count);                                  //4
Console.WriteLine(Vector<long>.Count);                                  //2
Console.WriteLine(Vector<ulong>.Count);                                 //2

Console.WriteLine(Vector<float>.Count);                                 //4
Console.WriteLine(Vector<double>.Count);                                //2

Console.WriteLine(System.Runtime.Intrinsics.Arm.AdvSimd.IsSupported);   //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Aes.IsSupported);       //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.ArmBase.IsSupported);   //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Crc32.IsSupported);     //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Dp.IsSupported);        //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Rdm.IsSupported);       //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha1.IsSupported);      //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha256.IsSupported);    //false

在实现将两个字节数组的元素与 abs 进行比较的 algorhytm 之后。差异超过特定阈值,在我的 Pi 4 上,我得到了以下基准测量值(预热后 3 次的平均值):

C# 循环:

59 毫秒

System.Numerics.Vector

21 毫秒

System.Runtime.Intrinsics.Arm.AdvSimd

17 毫秒

System.Runtime.Intrinsics.Arm.AdvSimd 优化矢量创建 https://gist.github.com/IKoshelev/325f0e10bee0806d7bb2c9d63d09ba9e

2 毫秒 !!!