搜索自定义对象并将其返回到新集合时需要提高性能

问题描述

结果在这里

Search Started: 9/20/2020 6:05:39 AM
Search Completed: Took 00:00:00
Collection Created: Took -00:01:18.4322494
DataSource Created: Took 00:00:00

我想做的是在对象集合中搜索搜索词匹配的任何对象。该集合用作winforms应用程序中datagridview的绑定数据源。通过linq搜索集合后,它将结果返回给ObservableCollection,然后将其设置为新的数据源。一切正常,除了SearchResults = new ObservableCollection<OrderLine>(SearchResultsQuery);非常慢之外,正如您从我之前所做的基准测试中所看到的那样。

感谢您的帮助!

产生这些结果的代码在这里

DateTime startTime = DateTime.Now;
Console.WriteLine($"Search Started: {startTime}");
SearchTerm = SearchTerm.toupper();

var SearchResultsQuery = from orderLine in new ObservableCollection<OrderLines.OrderLine>(OrderLineCollection)
                         where ( orderLine.BatchNumber != null && orderLine.BatchNumber.ToString().toupper().Contains(SearchTerm) ) ||
                         ( orderLine.BatchStatus != null && orderLine.BatchStatus.ToString().toupper().Contains(SearchTerm) ) ||
                         ( orderLine.CustomerItem != null && orderLine.CustomerItem.ToString().toupper().Contains(SearchTerm) ) ||
                         ( orderLine.CustomerName != null && orderLine.CustomerName.ToString().toupper().Contains(SearchTerm) ) ||
                         ( orderLine.CustomerPurchaSEOrder != null && orderLine.CustomerPurchaSEOrder.ToString().toupper().Contains(SearchTerm) ) ||
                         ( orderLine.FGItem != null && orderLine.FGItem.ToString().toupper().Contains(SearchTerm) ) ||
                         ( orderLine.IngItem != null && orderLine.IngItem.ToString().toupper().Contains(SearchTerm) ) ||
                         ( orderLine.RawItem != null && orderLine.RawItem.ToString().toupper().Contains(SearchTerm) ) ||
                         ( orderLine.ItemDescription != null && orderLine.ItemDescription.ToString().toupper().Contains(SearchTerm) ) ||
                         ( orderLine.Machine != null && orderLine.Machine.ToString().toupper().Contains(SearchTerm) ) ||
                         ( orderLine.NextPONumber != null && orderLine.NextPONumber.ToString().toupper().Contains(SearchTerm) ) ||
                         ( orderLine.Note != null && orderLine.Note.Content.ToString().toupper().Contains(SearchTerm) ) ||
                         ( orderLine.OrderNumber != null && orderLine.OrderNumber.ToString().toupper().Contains(SearchTerm) ) ||
                         ( orderLine.Status_1 != null && orderLine.Status_1.ToString().toupper().Contains(SearchTerm) ) ||
                         ( orderLine.Status_2 != null && orderLine.Status_2.ToString().toupper().Contains(SearchTerm) ) ||
                         ( orderLine.Status_3 != null && orderLine.Status_3.ToString().toupper().Contains(SearchTerm) ) ||
                         ( orderLine.Status_4 != null && orderLine.Status_4.ToString().toupper().Contains(SearchTerm) ) ||
                         ( orderLine.Status_Today != null && orderLine.Status_Today.ToString().toupper().Contains(SearchTerm) )
                         select orderLine;

TimeSpan searchTime = startTime - DateTime.Now;
startTime = DateTime.Now;
Console.WriteLine($"Search Completed: Took {searchTime}");

SearchResults = new ObservableCollection<OrderLine>(SearchResultsQuery); //THIS LINE IS SLOW

TimeSpan collectionTime = startTime - DateTime.Now;
startTime = DateTime.Now;
Console.WriteLine($"Collection Created: Took {collectionTime}");

bs.DataSource = SearchResults;

TimeSpan dataSourceTime = startTime - DateTime.Now;
Console.WriteLine($"DataSource Created: Took {dataSourceTime}");

如何提高将LINQ结果引入新集合的性能

解决方法

要考虑的一些事情:

请勿使用DateTime来衡量效果。始终使用秒表或Benchmark.net。永远不要测量算法的第一次运行,因为它将包括编译时间。

另一建议是使用更多detailed profiler,它可以逐行提供性能报告。

新的ObservableCollection(SearchResultsQuery); //这条线很慢

这很慢,因为这是运行查询的实际行。没什么异常。

新的ObservableCollection (OrderLineCollection)

您应该可以只搜索OrderLineCollection。为什么将所有内容复制到ObservableCollection

如果许多属性都是字符串,为什么要在它们上运行.ToString()

.ToUpper()的效率很低,因为它必须创建一个新的字符串,.Contains并不会产生带有StringComparison参数的重载。有人建议使用.IndexOf,但这在我测试时似乎比.Contains慢。

一种选择是将所有属性连接到一个大字符串,这将带来不利的结果,即如果一个属性以“ ab”结尾而一个以“ ab”开头,则搜索“ abcd”为真“光盘”。这可能与您的用例无关。

另一种选择是作为预处理步骤将所有属性转换为字符串列表,因此搜索将仅检查列表中的所有项目。这似乎比连接属性要慢一些。

以上两种方法都可以与.AsParallel()结合使用,以在多个线程上运行查询。

第三种选择是使用专门用于快速搜索的lucene之类的东西。

当我执行类似的操作时,使用100万个项目的原始代码可获得700毫秒的时间。使用字符串串联和AsParallel大约需要15毫秒(不包括串联字符串)。这对于交互性能应该足够了。如果还有更多项目,则可能需要一些第三方解决方案进行搜索。