关于使用分布式张量流的grpc + gdr和grpc +动词的一些问题

问题描述

当我使用分布式张量流时,grpc + gdr比grpc + verbs差,但是加载了nv_peer_mem,我不知道grpc + verbs和grpc + gdr的区别?有人可以帮助我吗? 和一些输出如下: root @ s36-2288H-V5:〜#/etc/init.d/nv_peer_mem状态

nv_peer_mem模块已加载。

我的起始代码如下:

python /root/benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py
--server_protocol=grpc+verbs
--model=vgg16 --variable_update=parameter_server
--batch_size=64 --num_batches=50 --num_warmup_batches=10
--local_parameter_device=gpu --num_gpus=1
--job_name=ps --task_index=0
--ps_hosts=172.168.30.25:10011
--worker_hosts=172.168.30.26:50012 &

当我设置--server_protocol = grpc + gdr时,性能会变差。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)