C# Parallel.ForEach 和 Task.WhenAll 有时返回的值比假设的要少

问题描述

我有这个:

Parallel.ForEach(numbers,(number) =>
{
    var value = Regex.Replace(number,@"\s+","%20");

    tasks.Add(client.GetAsync(url + value));
});

await Task.WhenAll(tasks).ConfigureAwait(false);

foreach (var task in tasks)
{
  ...
}

有时在到达 foreach 时返回较少的任务(任务中的 var 任务),但在几次请求后,开始返回所有任务。

我已将 ConfigureAwait 更改为 true,但有时仍会返回较少的任务。

顺便说一句,我使用 Parallel.ForEach,因为每个 client.GetAsync(url + value) 都是对外部 api 的请求,其特殊性在于其 99% 的请求的延迟 SLA 低于 1 秒

你们能解释一下为什么它有时会返回较少的任务吗?

有没有办法保证总是返回所有任务?

谢谢

解决方法

有没有办法保证总是返回所有任务?

评论中的几个人指出你应该这样做,假设 numbers 是一个非线程安全列表:

    foreach(var number in numbers)
    {
        var value = Regex.Replace(number,@"\s+","%20");

        tasks.Add(client.GetAsync(url + value));
    }

    await Task.WhenAll(tasks).ConfigureAwait(false);

    foreach (var task in tasks)
    {
      ...
    }

并行创建下载任务似乎没有任何显着的好处;这发生得非常快。等待下载完成是在 WhenAll

ps;有多种更复杂的方法可以为 URL 转义数据,但如果您特别想将任何类型的空格转换为 %20,我想使用正则表达式来做是有意义的。

编辑;你问什么时候使用 Parallel ForEach,我会说“通常不要,因为你必须更加小心你使用它的上下文”,但是如果你让 Parallel.ForEach 做更多同步工作,这可能是有道理的:

    Parallel.ForEach(numbers,number =>
    {
        var value = Regex.Replace(number,"%20");

        var r = client.Get(url + value));

        //do something meaningful with r here,i.e. whatever ... is in your  foreach (var task in tasks)

    });

但是请注意,如果您出于协调目的从主体内部对某些共享事物执行更新,则它需要是线程安全的

,

你没有显示它,所以我们只能猜测,但我假设 tasks 是一个 List<>。此集合类型不是线程安全的;您的并行循环可能会“覆盖”值。要么手动锁定您的列表,要么切换到线程安全的集合,例如 ConcurrentQueue<>

var tasks = new ConcurrentQueue<Task<string>>();

Parallel.ForEach(numbers,number =>
{
    var value = Regex.Replace(number,"%20");
    tasks.Enqueue(client.GetAsync(url + value));
});

await Task.WhenAll(tasks.ToArray()).ConfigureAwait(false);

foreach (var task in tasks)
{
   // whatever 
}

也就是说,您对 Parallel.ForEach 的使用非常可疑。您没有在循环内执行任何真正重要的事情。使用 Parallel,尤其是在适当锁定的情况下,可能会产生更高的开销,从而抵消您声称观察到的或通过并行化 Regex 调用实现的任何潜在收益。我会将其转换为普通的 foreach 循环并预编译 Regex 以抵消其(部分)开销:

// in class
private static readonly Regex SpaceRegex = new Regex(@"\s+",RegexOptions.Compiled);

// in method
var tasks = new List<Task<string>>();

foreach (var number in numbers)
{
    var value = SpaceRegex.Replace(number,"%20");
    tasks.Add(client.GetAsync(url + value));
}

await Task.WhenAll(tasks).ConfigureAwait(false);

foreach (var task in tasks)
{
   // whatever 
}

或者,根本不使用正则表达式。使用适当的 Uri 转义机制,不仅可以修复空格,还可以带来额外的好处:

var value = Uri.EscapeDataString(number);
// or
var fullUri = Uri.EscapeUriString(url + number);

注意这里有两种不同的方法。正确使用取决于 urlnumber 的值。还有其他机制,例如 HttpUtility.UrlEncode 方法...但我认为这些是首选。