如何将具有多个输入列的 Spark ML 模型转换为 ONNX 并将其用于对动态批量大小进行评分?

问题描述

我使用以下方法将具有动态批量大小的逻辑回归模型从 Spark ML 转换为 ONNX:

initial_types = [('Features',FloatTensorType([None,5]))]
onnx_model = convert_sparkml(s_clf,'Occupancy detection Pyspark Logistic Regression model',initial_types,spark_session = sess)

然后我使用下面的代码成功地获得了 df1,一个形状为 (12417,5) 的动态样本:

import onnxruntime as rt
sess = rt.InferenceSession(bmodel)
input_name = sess.get_inputs()[0].name
label_name = sess.get_outputs()[0].name
df1 = df[features_cols]
predictions = sess.run([label_name],{input_name: df1.values.astype(np.float32)})[0]

现在我尝试构建管道并转换为 ONNX。我试图转换它的第一阶段,它只是一个 VectorAssembler 使用:

initial_types = [
('Temperature',1])),('Humidity',('Light',('CO2',('HumidityRatio',]
onnx_model = convert_sparkml(assembler,'Occupancy detection Pyspark Assembler of features',spark_session = sess).

尝试使用此代码使用它:

predictions = sess.run([label_name],{
"Temperature": [df1.Temperature.values.astype(np.float32)],"Humidity": [df1.Humidity.values.astype(np.float32)],"Light": [df1.Light.values.astype(np.float32)],"CO2": [df1.CO2.values.astype(np.float32)],"HumidityRatio": [df1.HumidityRatio.values.astype(np.float32)],})[0]

失败,[ONNXRuntimeError] : 2 : INVALID_ARGUMENT : 输入的维度无效:以下索引的光 索引:1 得到:12417 预期:1。

只是为了测试,我通过添加 df1 = df1[:1] 选择了一个样本,然后上面的代码有效..

如何导出具有多个输入列的模型,以便我可以使用 onnxruntime 对动态批量大小进行评分?为什么逻辑回归可以完美运行,而这个简单的 VectorAssembler 却失败了?

感谢您的帮助, 阿迪

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...