问题描述
假设我有一个数据分析问题(例如 Iris Dataset 之类的 csv 数据),我想用 Pandas 和 Python 进行一些数据操作和处理。我的 Python 脚本已经写好,每天当我收到一个 csv 文件时,我希望在 Azure 云中使用我的 Python 脚本处理这些数据,并将结果写入 Azure Blob 存储。
现在我遇到了这些链接/方法来解决这个问题:
- Run Python Scripts via Data Factory using Azure Batch
- Run Databricks-Notebook activity in Data Factory
- Run Python Scripts via Azure Databricks Python activity in Data Factory
有没有人对上述两种运行 python 脚本的方法有一些经验,也许有一些建议和需要考虑的因素(优点/缺点)?
此问题的目标:选择哪种方法或您更喜欢哪种方法:a) Azure Batch Service 或 b) Azure Databricks 以及为什么?
选择合适的服务需要考虑的事项:
- 价格
- 设置解决方案的便利
- 监测可能性
- 随着时间的推移,如果数据增长或脚本逻辑变得更加复杂,则有可能进行扩展
- 易于与其他服务(例如存储)集成
- 在库和框架方面的灵活性(例如,稍后说它可能成为数据科学问题,我想在我的分析管道中添加一些 h2o 机器学习模型)
- (也许更多我没有考虑......?)
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)