适用于 Python 作业的 Azure 批处理服务与 Azure Databricks

问题描述

假设我有一个数据分析问题(例如 Iris Dataset 之类的 csv 数据),我想用 Pandas 和 Python 进行一些数据操作和处理。我的 Python 脚本已经写好,每天当我收到一个 csv 文件时,我希望在 Azure 云中使用我的 Python 脚本处理这些数据,并将结果写入 Azure Blob 存储。

现在我遇到了这些链接/方法来解决这个问题:

有没有人对上述两种运行 python 脚本的方法有一些经验,也许有一些建议和需要考虑的因素(优点/缺点)?

此问题的目标:选择哪种方法或您更喜欢哪种方法:a) Azure Batch Service 或 b) Azure Databricks 以及为什么?

选择合适的服务需要考虑的事项:

  • 价格
  • 设置解决方案的便利
  • 监测可能性
  • 随着时间的推移,如果数据增长或脚本逻辑变得更加复杂,则有可能进行扩展
  • 易于与其他服务(例如存储)集成
  • 在库和框架方面的灵活性(例如,稍后说它可能成为数据科学问题,我想在我的分析管道中添加一些 h2o 机器学习模型)
  • (也许更多我没有考虑......?)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)