问题描述
我们最近尝试从Azure Redis切换到Redis Enterprise,不幸的是,大约一个小时后,由于性能问题,我们被迫回滚。我们正在寻找有关如何找到根本原因并继续进行的建议。到目前为止,这是我已经弄清楚的,但是很高兴根据需要添加更多详细信息。
首先,客户端是使用StackExchange.Redis 2.1.30版的.NET Framework应用程序。 Azure Redis实例使用4个分片,Redis Enterprise实例也配置了4个分片。
切换到Redis Enterprise后,每隔5分钟就会立即看到数千个此类异常:
执行GET(5000ms)超时,下一个:GET [挑战] :: 306331,安装: 1,qu:0,qs:3079,aw:False,rs:ReadAsync,ws:Idle,in:0, serverEndpoint:xxxxxxx:17142,mc:1/1/0,mgr:9 of 10 available, clientName:API,IOCP:(Busy = 2,Free = 998,Min = 400,Max = 1000),WORKER: (繁忙= 112,免费= 32655,最小值= 2000,最大值= 32767),本地CPU:4.5%,v: 2.1.30.38891(请查看本文,了解一些可能导致超时的常见客户端问题: https://stackexchange.github.io/StackExchange.Redis/Timeouts)
查看此错误消息,似乎在WORKER线程池中有很多东西(等待Redis Enterprise响应的事物),但是在IOCP线程池中几乎没有任何东西(来自Redis的响应等待我们的客户端处理)码)。因此,Redis方面存在一些瓶颈。
使用AppInsights,我创建了一个繁忙工作线程(深蓝色),繁忙IO线程(红色)和CPU使用情况(浅蓝色)的图形。我们看到这样的东西:
CPU从未真正超过20%左右,IO线程几乎没有发生变化(我认为最大值大约是2个繁忙),但是辅助线程会不断增长,直到最终所有超时并且进程重新开始再次。晚上7点过后,我们决定回滚到Azure Redis,所以那时一切都很好。因此,所有事情都表明Redis是某种瓶颈。因此,让我们来看一下Redis方面。
在这段时间内,Redis报告的最大CPU使用率约为5%。传入流量最高约为1.4MB / s,传出流量最高约为9.5MB / s。运算/秒约为4k。这段时间的延迟为0.05毫秒,而SLOWLOG中最慢的延迟约为15毫秒。换句话说,Redis Enterprise节点几乎不费吹灰之力,并且能够轻松跟上发送给它的流量。实际上,由于Redis甚至不需要将任何内容发送到其他节点,因此集群中甚至没有使用其他4个节点。 Redis基本上只是打哈欠。
从这里开始,我在想也许存在网络带宽限制。我们所有的VM均配置为用于加速联网,并且我们应该与这些计算机建立10gig连接。我决定在客户端和服务器之间运行 iperf :
我可以轻松地在客户端和Redis Enterprise服务器之间以700Mbit / sec的速度进行传输,但是服务器正在轻松地处理9.5MB / sec。因此,似乎没有问题是网络带宽。
所以,这就是我们的立场:
- 相同的代码在Azure Redis上很好用,但是当我们切换到Redis Enterprise时却导致数千次超时。
- Redis Enterprise每秒处理4,000次操作,每秒发送9兆,并且通常可以在几毫秒内完成一次操作,最长为15毫秒。
- 我可以在客户端和服务器之间发送700+ Mb / sec的速度。
- 但是,WORKER线程池随着对Redis的待处理请求而建立,并最终超时。
我很困在这里。诊断此问题的下一步是什么好方法?谢谢!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)