SocketException:主机查找失败:'...com'操作系统错误:提供了节点名或服务名,或未知,errno = 8

问题描述

我们处于生产应用程序面临以下套接字异常并且在此之后无法执行任何其他网络操作的情况。

dioError [dioErrorType.DEFAULT]: SocketException: Failed host lookup: ‘xyz.abc.com’ (OS Error: nodename nor servname provided,or not kNown,errno = 8)

注意:反复遇到一位使用 iPhone X、iOS 14.4 的用户

我们使用 Dio 作为网络客户端,使用 Retrofit,它在内部使用来自 dart 的 HttpClient。使用dio模拟环境无法重现异常,而是直接使用HttpClient,在iOS模拟器中使用以下代码可以重现相同的异常。

HttpClient userAgent = new HttpClient();
  bool run = true;
  while (run) {
    try {
      await userAgent.getUrl(Uri.parse('https://www.google.com'));
      print('Number of api executed');
    } catch (e) {
      print(e);
      if (e is SocketException) {
        if ((e as SocketException).osError.errorCode == 8)
          print('***** Exception Caught *****');
      }
    }
  }

一旦抛出异常,HttpClient 就无法从过时的状态中恢复,所有其他 API 请求都开始失败并出现相同的错误

enter image description here

通过强制关闭所有先前的连接并打开一个新的 HttpClient,我们能够从过时的状态中恢复。

  HttpClient userAgent = new HttpClient();
  bool run = true;
  while (run) {
    try {
      await userAgent.getUrl(Uri.parse('https://www.google.com'));
      print('Number of api executed');
    } catch (e) {
      print(e);

      if (e is SocketException) {
        if ((e as SocketException).osError.errorCode == 8)
          print('***** Exception Caught *****');
      }
      userAgent.close(force: true);
      print('Force closing prevIoUs connections');
      userAgent = HttpClient();
      print('Creating new HttpClient instance');
    }
  }

enter image description here

一个有趣的事实是在每 236 次请求之后就会引发异常。这可能是因为文件描述符被过度使用,但 iOS 有 256 的限制。?

在互联网连接稳定的情况下,此问题每次在 iOS 模拟器中都会重现。

虽然我无法用 dio 客户端重现该问题,但在生产中它正在发生。所以我正在寻求帮助以了解此问题的根本原因,以及我们如何预防它?

任何遇到过这种情况的人以及您是如何克服它的,请帮助我。

提前致谢。

解决方法

这是一个奇怪的错误。

这可能无法回答您的问题,但可能会促使我们弄清楚发生了什么。

代码片段(从问题中复制)将在每次 stream 调用时打开一个新的 .getUrl(),并且不会关闭它们。 (我假设这是故意创建套接字异常?)

HttpClient userAgent = new HttpClient();
  bool run = true;
  while (run) {
    try {
      await userAgent.getUrl(Uri.parse('https://www.google.com'));
      print('Number of api executed');
    } catch (e) {
      print(e);
      if (e is SocketException) {
        if ((e as SocketException).osError.errorCode == 8)
          print('***** Exception Caught *****');
      }
    }
  }

在某些时候,达到了(开放流的)限制。我猜在你的情况下,这个幻数是 236。

那么在那个时候,是在您看到 nodename or servname provided 异常的时候吗?

(顺便说一句,我认为该错误来自底层主机操作系统的 DNS 服务,尽管我不确定它是否是由于请求垃圾邮件、打开连接的数量等引起的。这可能不是相关信息。)

因此,如果您以典型方式使用 HttpClient,发出请求并关闭那些打开的流,例如:

      var request = await userAgent.getUrl(Uri.parse('http://example.com/'));
      var response = await request.close(); // ← close the stream
      var body = await response.transform(utf8.decoder).join();
      // ↑ convert results to text
      // rinse,repeat... 

...您是否仍然看到同样的 nodename or servname provided 错误弹出?

使用上面的“典型用法”代码,可以重复使用 userAgent,直到发出 userAgent.close() 调用(并且 HttpClient 永久关闭。 再次尝试使用它会抛出 Bad State 异常)。

我很想知道这个修改后的代码是否仍然出现节点名称错误。


回复:问题中的第二个代码片段。

在 catch 块中,关闭 HttpClient,然后创建一个新的 HttpClient。这有效地关闭了在 try 块中打开的所有开放流(我假设,重置开放流的限制。)

如果您调整了第二个代码示例以使用:

      var req = await userAgent.getUrl(Uri.parse('https://www.google.com'));
      userAgent.close(force: true);
      userAgent = HttpClient();
      print('Number of api executed');

你能无限期地运行吗?