问题描述
我有一个版本化的AzureML数据集。数据仅附加,并且每周一次。因此,数据集获得“每周新版本”。它在Azure Blob容器上的组织方式如下:
.data
├── week1
│ └── data1.csv
└── weeks2
└── data2.csv
#week1 data1.csv
country,code
United States,US
India,IN
United Kingdom,UK
#week2 data2.csv
country,code
China,CN
我在AzureML工作区中有此数据集。我在Azure Databricks Worspace中也有一个笔记本,我正在其中访问此数据集
from azureml.core import Workspace,Datastore,Dataset
subscription_id = "###"
resource_group = "####"
workspace_name = "####"
workspace = Workspace(subscription_id,resource_group,workspace_name)
datastore= workspace.get_default_datastore()
dataset_ver1= Dataset.get_by_name(workspace,name="demo_data",version=1)
print (dataset_ver1.to_pandas_dataframe())
# country code
#0 United States US
#1 India IN
#2 United Kingdom UK
dataset_ver1.to_spark_dataframe().show(20)
#+--------------+----+
#| country|code|
#+--------------+----+
#| United States| US|
#| India| IN|
#|United Kingdom| UK|
#+--------------+----+
dataset_ver2= Dataset.get_by_name(workspace,version="latest")
print (dataset_ver2.to_pandas_dataframe())
# country code
#0 United States US
#1 India IN
#2 United Kingdom UK
#3 China CN
dataset_ver2.to_spark_dataframe().show(20)
#+--------------+----+
#| country|code|
#+--------------+----+
#| United States| US|
#| India| IN|
#|United Kingdom| UK|
#| China| CN|
#| United States| US|
#| India| IN|
#|United Kingdom| UK|
#| China| CN|
#+--------------+----+
如果查看版本2的Spark Dataframe输出,则每行都会重复。而Pandas数据框看起来像预期的那样。 这是AzureML API中的错误,还是我做错了什么?
请帮助
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)