问题描述
我们的客户遇到一个普遍的问题,即许多具有不同技术堆栈的分布式数据存储。最终的结果是将某些数据部分放在一起,以通过Microsoft Power BI生成详细的报告。
此方法是否有标准模式?我最初的想法是
- Azure数据工厂尽可能将数据迁移到Azure数据湖中。
- 在不可能的情况下,自动将数据提取和转储到Azure Data Lake中。
- User Power BI Desktop连接到csv数据集以生成模型和报告(同时执行大量转换)
- 发布到PowerBI服务以在用户之间共享
问题...
- 我们应该使用Data Factory(或其他ETL)中的DataFlows进行转换还是继续使用PowerBI中的查询编辑器
- 在PowerBI Desktop中连接许多数据集并执行大量转换活动是否存在性能问题?
- 为了用新数据更新报告,是否只是在数据湖中覆盖以前的CSV文件并刷新报告的情况?
解决方法
以我的经验:
- 使用查询编辑器。那是流行的工具。到处都有大量的示例和视频。
- 不确定“多少”是什么,但是您可以加载最大1GB的电子表格文件。单个工作表最大为30MB。 Click here for more on limits
- 是的。而且,您还可以设置自动刷新,因此您无需单击任何内容。