如何使用 EF6 获取大量记录

问题描述

我需要使用 EF6 从 sql Server 数据库获取大量记录。它需要很多时间的问题。主要问题是名为 Series 的实体,其中包含 Measurements。其中大约有 250K,每个都有 2 个嵌套实体,称为 FrontDropPhotoSideDropPhoto

[Table("Series")]
public class DbSeries
{
    [Key] public Guid SeriesId { get; set; }
    public List<DbMeasurement> MeasurementsSeries { get; set; }
}

[Table("Measurements")]
public class DbMeasurement
{
    [Key] public Guid MeasurementId { get; set; }

    public Guid CurrentSeriesId { get; set; }
    public DbSeries CurrentSeries { get; set; }

    public Guid? SideDropPhotoId { get; set; }
    [ForeignKey("SideDropPhotoId")]
    public virtual DbDropPhoto SideDropPhoto { get; set; }

    public Guid? FrontDropPhotoId { get; set; }
    [ForeignKey("FrontDropPhotoId")]
    public virtual DbDropPhoto FrontDropPhoto { get; set; }
}

[Table("DropPhotos")]
public class DbDropPhoto
{
    [Key] public Guid PhotoId { get; set; }
}

我写了这样的 fetch 方法(为了清楚起见省略了大部分属性):

public async Task<List<DbSeries>> GetSeriesByUserId(Guid dbUserId)
{
        using (var context = new DDropContext())
        {
            try
            {
                var loadedSeries = await context.Series
                    .Where(x => x.CurrentUserId == dbUserId)
                    .Select(x => new
                    {
                        x.SeriesId,}).ToListAsync();

                var dbSeries = new List<DbSeries>();

                foreach (var series in loadedSeries)
                {
                    var seriesToAdd = new DbSeries
                    {
                        SeriesId = series.SeriesId,};

                    seriesToAdd.MeasurementsSeries = await GetMeasurements(seriesToAdd);

                    dbSeries.Add(seriesToAdd);
                }

                return dbSeries;
            }
            catch (sqlException e)
            {
                throw new TimeoutException(e.Message,e);
            }
        }
}

public async Task<List<DbMeasurement>> GetMeasurements(DbSeries series)
{
        using (var context = new DDropContext())
        {
            var measurementForSeries = await context.Measurements.Where(x => x.CurrentSeriesId == series.SeriesId)
                .Select(x => new
                {
                    x.CurrentSeries,x.CurrentSeriesId,x.MeasurementId,})
                .ToListAsync();

            var dbMeasurementsForAdd = new List<DbMeasurement>();

            foreach (var measurement in measurementForSeries)
            {
                var measurementToAdd = new DbMeasurement
                {
                    CurrentSeries = series,MeasurementId = measurement.MeasurementId,FrontDropPhotoId = measurement.FrontDropPhotoId,FrontDropPhoto = measurement.FrontDropPhotoId.HasValue
                        ? await GetDbDropPhotoById(measurement.FrontDropPhotoId.Value)
                        : null,SideDropPhotoId = measurement.SideDropPhotoId,SideDropPhoto = measurement.SideDropPhotoId.HasValue
                        ? await GetDbDropPhotoById(measurement.SideDropPhotoId.Value)
                        : null,};

                dbMeasurementsForAdd.Add(measurementToAdd);
            }

            return dbMeasurementsForAdd;
        }
}

private async Task<DbDropPhoto> GetDbDropPhotoById(Guid photoId)
{
        using (var context = new DDropContext())
        {
            var dropPhoto = await context.DropPhotos
                .Where(x => x.PhotoId == photoId)
                .Select(x => new
                {
                    x.PhotoId,}).FirstOrDefaultAsync();

            if (dropPhoto == null)
            {
                return null;
            }

            var dbDropPhoto = new DbDropPhoto
            {
                PhotoId = dropPhoto.PhotoId,};

            return dbDropPhoto;
        }
}

通过 FluentAPI 配置的关系:

        modelBuilder.Entity<DbSeries>()
            .HasMany(s => s.MeasurementsSeries)
            .Withrequired(g => g.CurrentSeries)
            .HasForeignKey(s => s.CurrentSeriesId)
            .WillCascadeOnDelete();

        modelBuilder.Entity<DbMeasurement>()
            .HasOptional(c => c.FrontDropPhoto)
            .WithMany()
            .HasForeignKey(s => s.FrontDropPhotoId);

        modelBuilder.Entity<DbMeasurement>()
            .HasOptional(c => c.SideDropPhoto)
            .WithMany()
            .HasForeignKey(s => s.SideDropPhotoId);

我需要所有这些数据来填充 WPF DataGrid。显而易见的解决方案是向这个 DataGrid 添加分页。这个解决方案很诱人,但它会严重破坏我的应用程序的逻辑。我想在运行时使用这些数据创建绘图,所以我需要所有这些,而不仅仅是某些部分。我试图通过使每种方法都使用 async await 来优化它,但它并没有足够的帮助。我已经尝试添加

.Configuration.AutoDetectChangesEnabled = false;

对于每个上下文,但加载时间仍然很长。如何解决这个问题?

解决方法

除了您打算返回的大量数据之外,主要问题是您的代码结构方式意味着对于 250,000 Series 中的每一个,您都需要再次访问数据库以获取 MeasurementsSeries,然后再进行 2 趟以获取每个 DropPhotos 的正面/侧面 Measurement。除了 750,000 次调用的往返时间之外,这完全避免了利用 SQL 基于集合的性能优化。

尽量确保 EF 提交尽可能少的查询来返回您的数据,最好是一个:

var loadedSeries = await context.Series
                .Where(x => x.CurrentUserId == dbUserId)
                .Select(x => new DbSeries
                {
                    SeriesId = x.SeriesId,MeasurementsSeries = x.MeasurementsSeries.Select(ms => new DbMeasurement 
                    {
                         MeasurementId = ms.MeasurementId,FrontDropPhotoId = ms.FrontDropPhotoId,FrontDropPhoto = new DbDropPhoto
                         {
                             PhotoId = ms.FrontDropPhotoId
                          },SideDropPhotoId = ms.SideDropPhotoId,SideDropPhoto = new DbDropPhoto
                         {
                             PhotoId = ms.SideDropPhotoId
                          },})
                }).ToListAsync();
,

首先,async/await 不会在这里帮助您。这不是“更快”类型的操作,而是关于适应“在此操作进行计算时可以做其他事情”的系统。如果有的话,它会使操作变慢,以换取使系统响应更快。

我的建议是将您的关注点分开:一方面您希望显示详细数据。另一方面,您想绘制一个整体图。把这些分开。用户不需要一次查看每条记录的详细信息,在服务器端对其进行分页将大大减少任何时候的原始数据量。图想要查看所有数据,但他们并不关心位图等“重”细节。

接下来是将视图模型与域模型(实体)分开。做这样的事情:

var measurementToAdd = new DbMeasurement
{
    CurrentSeries = series,MeasurementId = measurement.MeasurementId,FrontDropPhotoId = measurement.FrontDropPhotoId,FrontDropPhoto = measurement.FrontDropPhotoId.HasValue
        ? await GetDbDropPhotoById(measurement.FrontDropPhotoId.Value)
        : null,SideDropPhotoId = measurement.SideDropPhotoId,SideDropPhoto = measurement.SideDropPhotoId.HasValue
        ? await GetDbDropPhotoById(measurement.SideDropPhotoId.Value)
        : null,};

...只是自找麻烦。任何接受 DbMeasurement 的代码都应接收完整的或可完成的 DbMeasurement,而不是部分填充的实体。它在未来燃烧你。为数据网格定义一个视图模型并填充它。通过这种方式,您可以清楚地区分什么是实体模型,什么是视图模型。

接下来,对于数据网格,绝对实现服务端分页:

public ICollection<MeasurementViewModel> GetMeasurements(int seriesId,int pageNumber,int pageSize)
{
    using (var context = new DDropContext())
    {
        var measurementsForSeries = await context.Measurements
           .Where(x => x.CurrentSeriesId == seriesId)
           .Select(x => new MeasurementViewModel
            {
                MeasurementId = x.MeasurementId,FromDropPhoto = x.FromDropPhoto.ImageData,SideDropPhoto = x.SideDropPhoto.ImageData
            })
            .Skip(pageNumber*pageSize)
            .Take(pageSize)
            .ToList();

        return measurementsForSeries;
    }
}

这假设我们要为行提取图像数据(如果可用)。在查询中利用相关数据的导航属性,而不是迭代结果并为每一行返回数据库。

对于图表,您可以返回原始整数数据或仅需要字段的数据结构,而不是依赖为网格返回的数据。它可以为整个表拉动,而无需“重”图像数据。当数据可能已经加载一次时,转到数据库似乎会适得其反,但结果是两个高效的查询,而不是一个试图服务于两个目的的非常低效的查询。

,

您为什么要重新发明轮子并手动加载和构建相关实体?您正在导致 N+1 selects problem 导致性能不佳。让EF通过.Include

高效查询相关实体

示例:

var results = context.Series
    .AsNoTracking()
    .Include( s => s.MeasurementSeries )
        .ThenInclude( ms => ms.FrontDropPhoto )
    .Where( ... )
    .ToList(); // should use async 

这将显着加快执行速度,但如果它需要构建数十万到数百万个对象(在这种情况下您可以同时批量检索数据),它可能仍然不足以满足您的要求。