问题描述
我正在编写代码,将减去两个数组中的相应字节并计算超过给定阈值的结果字节数。 AFAIU,它真的会从 .NET SIMD 中受益,但是当我在 RaspBerry Pi 4 上编译 C# 时,System.Numerics.Vector.IsHardwareAccelerated
返回 false。
我的 dotnet
版本是 3.1.406,我已添加
<PropertyGroup>
<Optimize>true</Optimize>
</PropertyGroup>
到 csproj 并运行 release
配置。
有什么方法可以在 RaspBerry Pi 4 上利用 .NET 中的 SIMD 支持?也许使用 .NET 5?
更新 我安装了 .NET 5 并尝试了 .NET Intrinsics,但都不支持:
Console.WriteLine(System.Runtime.Intrinsics.Arm.AdvSimd.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Aes.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.ArmBase.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Crc32.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Dp.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Rdm.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha1.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha256.IsSupported); //false
我使用的是 32 位 Raspbian(Debian 衍生版),是否有可能需要 64 位版本才能运行?
附言澄清一下,在普通的 C# 中,算法看起来像这样:
public static int ScalarTest(byte[] lhs,byte[] rhs)
{
var result = 0;
for (int index = 0; index < lhs.Length; index++)
{
var a = lhs[index];
var b = rhs[index];
if (b > a)
{
(b,a) = (a,b);
}
result += ((a - b) >= 16) ? 1 : 0;
}
return result;
}
解决方法
尽管 API 已经完成并且甚至被记录在案,但仍然缺少实现。 Take a look. 8 字节 SIMD 向量几十年来一直是 NEON ISA 的重要组成部分(于 2005 年推出),但 .NET 运行时仅在为 ARM64(于 2013 年发布)编译时才实现它们。
我不在 Microsoft 工作,也不知道他们是如何编译二进制文件的,但源代码告诉他们,在为 ARM64 目标构建时,他们至少有一些对 NEON 的支持。如果您想要 .NET 中的这些内在函数,您可以尝试 64 位操作系统。
有一个变通方法 — 用 C++ 实现您对性能至关重要的部分,为 Linux 编译一个共享库,然后使用 [DllImport]
从 .NET 使用这些函数。我已经构建了非平凡的 Linux 软件 (example),使用以下 gcc 标志来构建 DLL:-march=native -mfpu=neon-fp16 -mfp16-format=ieee -ffast-math -O3 -fPIC
这样它将适用于 32 位操作系统,并且不需要任何东西特别来自 .NET 运行时,我已经使用 .NET Core 2.1 进行了测试。
按照@Soonts 的回答,在切换到 64 位 Raspbian 之后,这是我在 NET 5 中得到的。我正在寻找的大多数指令都得到支持。
Console.WriteLine(System.Runtime.InteropServices.RuntimeInformation.OSDescription);
//Linux 5.4.51-v8+ #1333 SMP PREEMPT Mon Aug 10 16:58:35 BST 2020
Console.WriteLine(System.Runtime.InteropServices.RuntimeInformation.ProcessArchitecture);
//Arm64
Console.WriteLine(System.Environment.Is64BitOperatingSystem); //true
Console.WriteLine(System.Numerics.Vector.IsHardwareAccelerated); //true
Console.WriteLine(Vector<byte>.Count); //16
Console.WriteLine(Vector<sbyte>.Count); //16
Console.WriteLine(Vector<short>.Count); //8
Console.WriteLine(Vector<ushort>.Count); //8
Console.WriteLine(Vector<int>.Count); //4
Console.WriteLine(Vector<uint>.Count); //4
Console.WriteLine(Vector<long>.Count); //2
Console.WriteLine(Vector<ulong>.Count); //2
Console.WriteLine(Vector<float>.Count); //4
Console.WriteLine(Vector<double>.Count); //2
Console.WriteLine(System.Runtime.Intrinsics.Arm.AdvSimd.IsSupported); //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Aes.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.ArmBase.IsSupported); //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Crc32.IsSupported); //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Dp.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Rdm.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha1.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha256.IsSupported); //false
在实现将两个字节数组的元素与 abs 进行比较的 algorhytm 之后。差异超过特定阈值,在我的 Pi 4 上,我得到了以下基准测量值(预热后 3 次的平均值):
C# 循环:
59 毫秒
System.Numerics.Vector
:
21 毫秒
System.Runtime.Intrinsics.Arm.AdvSimd
:
17 毫秒
System.Runtime.Intrinsics.Arm.AdvSimd
优化矢量创建
https://gist.github.com/IKoshelev/325f0e10bee0806d7bb2c9d63d09ba9e
2 毫秒 !!!