如何从Azure ml服务数据集中访问文件或文件夹?

问题描述

当前,我正在azure ml服务中,在azure ml中有名为“ voice_recognition_expreimnt”的数据集。 我通过以下代码访问此数据集:

file_dataset =  Dataset.get_by_name(workspace=ws,name='voice_recognition_expreimnt')

现在,我要访问数据集中的所有文件文件夹。因此,如何遍历数据集中的所有路径。我进行了很多搜索,但找不到任何解决方案。所以请帮助我

解决方法

答案取决于您是打算直接在计算实例笔记本中进行工作还是打算通过ScriptRunEstimator提交运行。

直接访问

您可以使用.downlad()将文件放在您当前正在使用的计算机上。

file_dataset.download()

通过跑步进行消费

以下是Azure ML SDK中的常见模式,它使数据集可用于RunsEstimators,PythonScriptSteps等。所有这些类使在许多计算目标上的数据集上运行代码特别容易。

src = ScriptRunConfig(
    source_directory=source_directory,script='dummy_train.py',arguments=[file_dataset.as_named_input('input').as_mount(),output
        ]
)

exp = Experiment(ws,'ScriptRun_sample')
run = exp.submit(config=src)

以下是一些更详细的教程。

  1. Creating and using a FileDataset within an Estimator
  2. How to use ScriptRun with data input and output笔记本(整个"datasets tutorial" folder是一个很好的例子。