如何估计 CoreML 模型的最大运行时占用空间以兆字节为单位

问题描述

假设我有一个在 TensorFlow/Keras/Caffe 等中制作的网络模型。我可以使用 CoreML Converters API 从中获取 CoreML 模型文件 (.mlmodel)。

现在，由于我有一个 .mlmodel 文件，并且知道 input shape 和 output shape，如何估计最大 RAM 占用空间？我知道一个模型可以有很多层，它们的大小可以比输入/输出形状大得多。

所以问题是：

在不编译和运行应用的情况下，可以知道使用某些公式/API 的最大 mlmodel 内存占用吗？
最大占用空间是更接近最大中间层的内存大小，还是更接近所有层大小的总和？

任何建议表示赞赏。由于我是 CoreML 的新手，您可以提供任何反馈，如果需要，我会尝试改进问题。

解决方法

恕我直言，无论您在一天结束时想出什么公式，都必须基于网络可训练参数的数量。

对于网络分类，可以通过迭代找到，也可以使用现有的 API。

在 keras 中。

import keras.applications.resnet50 as resnet

model =resnet.ResNet50(include_top=True,weights=None,input_tensor=None,input_shape=None,pooling=None,classes=2)
print model.summary()

Total params: 23,591,810
Trainable params: 23,538,690
Non-trainable params: 53,120

Pytorch：

def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)

对于检测器，您可能需要对网络的所有重要部分执行相同的操作，包括主干、rpn 等，无论您的网络由什么组成。

第二个重要参数是网络的精度。您一定听说过量化。它会改变所有或某些层的浮点精度，并且可以是静态的（当网络以所需的精度进行训练和校准时），也可以是在训练后转换网络时动态的。最简单的动态量化将浮点数替换为线性层上的某种整数。 pytorch 中的 Maskrcnn 使文件大小减小 30%，并在可训练参数数量相同的情况下显着减少内存消耗。

所以最终的等式类似于 size = number_of_trainable_parameters * precision * X，其中 X 是您必须针对特定网络和 coreml 细节找出的一些因素）

几年前我写了一篇博文，其中涉及到以下内容：https://machinethink.net/blog/how-fast-is-my-model/

但是，请记住，Core ML 的实际行为是未知的。它很可能会尽可能地提高效率（即为不再需要的张量重用内存）但它是一个黑匣子，所以谁知道呢。找出答案的唯一方法是在实际设备上试用您的模型。

coreml coremltools ios ios mlmodel