DataLake Power BI设计模式

问题描述

我们的客户遇到一个普遍的问题,即许多具有不同技术堆栈的分布式数据存储。最终的结果是将某些数据部分放在一起,以通过Microsoft Power BI生成详细的报告。

此方法是否有标准模式?我最初的想法是

  1. Azure数据工厂尽可能将数据迁移到Azure数据湖中。
  2. 在不可能的情况下,自动将数据提取和转储到Azure Data Lake中。
  3. User Power BI Desktop连接到csv数据集以生成模型和报告(同时执行大量转换)
  4. 发布到PowerBI服务以在用户之间共享

问题...

  1. 我们应该使用Data Factory(或其他ETL)中的DataFlows进行转换还是继续使用PowerBI中的查询编辑器
  2. 在PowerBI Desktop中连接许多数据集并执行大量转换活动是否存在性能问题?
  3. 为了用新数据更新报告,是否只是在数据湖中覆盖以前的CSV文件并刷新报告的情况?

解决方法

以我的经验:

  1. 使用查询编辑器。那是流行的工具。到处都有大量的示例和视频。
  2. 不确定“多少”是什么,但是您可以加载最大1GB的电子表格文件。单个工作表最大为30MB。 Click here for more on limits
  3. 是的。而且,您还可以设置自动刷新,因此您无需单击任何内容。

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...