问题描述
我在Windows上运行的复杂应用程序中遇到间歇性的TCP连接问题。
我正在尝试确定问题出在我的代码还是Windows本身的错误。
系统由客户端应用程序,服务器应用程序和Web应用程序GUI组成。 GUI通过API端口连接到服务器,而客户端应用程序通过其他端口连接。
我的测试设置使客户端程序通过SSH隧道连接,该SSH隧道重定向到与客户端在同一系统上运行的服务器。服务器还在另一个线程上监听localhost上的API端口。
代码在VMware工作站的Windows 10的内部版本2004上运行。
在某些时间点,服务器暂时停止响应SYN数据包。建立新的连接需要2到3秒钟,而由于重新传输,现有的连接会出现延迟。由于从服务器/ Windows的角度来看,所有连接都来自本地主机,并且发生在两个不同的线程上,因此我以自己的代码(可能解释该问题)用尽了所有解释。
问题每20分钟出现一次。这也让我怀疑还有其他错误与我的代码无关。
我有机会从使用CURL的连接尝试中获取数据包转储。看起来像这样:
从图中可以看出,服务器响应之间的本地主机有3秒的延迟!该服务器是一个非常简单的轮询设计,我无法发现问题所在。负责接受此连接的服务器代码如下:
cR<void> cWindowsTcpserver::HasConnectionsPending()
{
fd_set ReadSet = {};
FD_ZERO(&ReadSet);
FD_SET((SOCKET)_GenericFD,&ReadSet);
timeval Timeout = {};
// This select is not a bug on windows. The nSocks argument is ignored.
uint32_t SelectResult = select(NULL,&ReadSet,NULL,&Timeout);
if (SelectResult == SOCKET_ERROR)
return cR<void>(false);
return cR<void>(FD_ISSET((SOCKET)_GenericFD,&ReadSet) != 0);
}
cR<std::shared_ptr<iSocketBase>> cWindowsTcpserver::AcceptConnection()
{
uint32_t TempFD = INVALID_SOCKET;
sockaddr_in RemoteAddress = {};
uint32_t AddrLength = sizeof(RemoteAddress);
TempFD = (uint32_t)accept(_GenericFD,(sockaddr*)&RemoteAddress,(int*)&AddrLength);
if (TempFD == INVALID_SOCKET)
return cR<std::shared_ptr<iSocketBase>>(false);
// This would not work for IPv6,but ipv4 is hardcoded in all clients that connect here...
std::string Ip = inet_ntoa(RemoteAddress.sin_addr);
uint16_t Port = ntohs(RemoteAddress.sin_port);
return cR<std::shared_ptr<iSocketBase>>(true,std::make_shared<cWindowsTcpsocket>(TempFD,Ip,Port));
}
void cAPIServer::handle_server()
{
while ((bool)_server_socket->HasConnectionsPending() == true)
{
auto accepted_client = _server_socket->AcceptConnection();
std::thread(&cAPIServer::handle_client,this,accepted_client.Value()).detach();
}
}
void cAPIServer::server_main()
{
while (_is_running == true)
{
handle_server();
std::this_thread::sleep_for(std::chrono::milliseconds(5));
}
}
客户端,服务器和SSH一起以每秒〜6的速率循环通过未使用的端口。但是从我读过的所有内容来看,直到客户端每秒使用约33个连接后,Windows端口耗尽问题才出现。在perfmon和netstat中,一次处于活动状态的连接永远不会超过22个。我只看到大约60个处于“ TIME_WAIT”状态的连接在被系统回收之前。有64k端口可用于连接,所以我认为不是那样。
它的显示间隔始终为20分钟左右。端口耗尽问题也只会影响新的连接。但是在屏幕截图中,很明显,在建立连接之后,来自客户端的第一个承载数据的数据包也被重传了两次。
我的代码有误吗?还是我想念的东西?
编辑:
此后,我进行了以下实验:
-
在VM上运行客户端,在我的主机窗口上运行服务器10 机。结果是一样的。
-
删除所有其他网络适配器(例如OpenVPN),即使 这些都不活跃。结果是一样的。
-
重新引导所涉及的系统。结果是一样的。
-
禁用Windows Defender实时扫描。结果是一样的。
-
当我发现发生以下情况的数据包丢失时,打开一个ncat侦听器 另一个端口,然后连接。似乎比平时还慢,但是我 没有花时间准确地进行测量,所以我可能是错的。
-
运行netsh跟踪会话并打开事件(没什么特别的,但是有很多事件,因此我很容易错过了一些东西)。
-
禁用mmp和配置文件(Windows中的某种TCP syn Flood保护),
-
将客户端直接连接到服务器而不是SSH隧道,结果相同。
编辑2:
我注意到还有其他一些事情使我加深了神秘感。如果我终止了服务器和客户端,当发生丢包然后重新启动它们时,问题仍然存在。这一定是Windows中一些新颖的端口耗尽问题。
重启之间没有持久性。没有共享的数据库,共享的配置或任何其他类似的东西。客户端的服务器都未重用以前运行的状态,因此我认为这可以确认问题不在我的代码中。即使我指示代码使用其他端口,数据包仍会丢弃。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)