DataLake Power BI设计模式

编程问答 2022-08-23

问题描述

我们的客户遇到一个普遍的问题，即许多具有不同技术堆栈的分布式数据存储。最终的结果是将某些数据部分放在一起，以通过Microsoft Power BI生成详细的报告。

此方法是否有标准模式？我最初的想法是

Azure数据工厂尽可能将数据迁移到Azure数据湖中。
在不可能的情况下，自动将数据提取和转储到Azure Data Lake中。
User Power BI Desktop连接到csv数据集以生成模型和报告（同时执行大量转换）
发布到PowerBI服务以在用户之间共享

问题...

我们应该使用Data Factory（或其他ETL）中的DataFlows进行转换还是继续使用PowerBI中的查询编辑器
在PowerBI Desktop中连接许多数据集并执行大量转换活动是否存在性能问题？
为了用新数据更新报告，是否只是在数据湖中覆盖以前的CSV文件并刷新报告的情况？

解决方法

以我的经验：

使用查询编辑器。那是流行的工具。到处都有大量的示例和视频。
不确定“多少”是什么，但是您可以加载最大1GB的电子表格文件。单个工作表最大为30MB。 Click here for more on limits
是的。而且，您还可以设置自动刷新，因此您无需单击任何内容。

azure azure azure-data-factory-2 azure-data-lake-gen2 powerbi