矩阵乘法的高效实现ARM cortex A9

是否有任何简单的方法库可以使用 Xilinx SDK 在 ARM CortexA9 双核上高效（最大可能的速度）实现线性代数？

我正在使用带有双核 Arm 处理器的 zybo z7 开发板，我想在 Xilinx SDK 上实现一个简单的神经网络，其中一个卷积层后跟一个密集层。具体来说，在 Arm 上传输基于 python numpy 的模型。我阅读了一些 ARM 和 SIMD 库的手册，但我不想深入研究。

对我来说，一个简单的方法是使用一个库并像 python 中的 numpy 一样自行执行乘法/点积/卷积等（快速），并避免纯 for...循环语法。举个例子就好了！

感谢您的时间

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

矩阵乘法的高效实现ARM cortex A9 - Xilinx SDK