问题描述
假设我有多个客户端将请求发送到服务器(gRPC服务)。我希望我的服务器能够收集,说8个请求,立即处理这些请求,然后仅将结果发送回客户端。我不确定如何使用GRPC功能来做到这一点,或者即使有可能还是我需要其他东西,我也不知道。
上下文:我的用例来自为GPU上的神经网络提供服务。在这种情况下,批处理多个请求的输入,进行一次推理并将结果发送回,而不是对每个输入进行一次推理,效率更高。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)