AzureML数据集的Spark数据框中的行重复

问题描述

我有一个版本化的AzureML数据集。数据仅附加，并且每周一次。因此，数据集获得“每周新版本”。它在Azure Blob容器上的组织方式如下：

.data
├── week1
│   └── data1.csv
└── weeks2
    └── data2.csv

#week1 data1.csv
country,code
United States,US
India,IN
United Kingdom,UK

#week2 data2.csv
country,code
China,CN

我在AzureML工作区中有此数据集。我在Azure Databricks Worspace中也有一个笔记本，我正在其中访问此数据集

from azureml.core import Workspace,Datastore,Dataset

subscription_id = "###"
resource_group = "####"
workspace_name = "####"

workspace = Workspace(subscription_id,resource_group,workspace_name)
datastore= workspace.get_default_datastore()

dataset_ver1= Dataset.get_by_name(workspace,name="demo_data",version=1)

print (dataset_ver1.to_pandas_dataframe())
#   country     code
#0  United States   US
#1  India   IN
#2  United Kingdom  UK

dataset_ver1.to_spark_dataframe().show(20)

#+--------------+----+
#|       country|code|
#+--------------+----+
#| United States|  US|
#|         India|  IN|
#|United Kingdom|  UK|
#+--------------+----+

dataset_ver2= Dataset.get_by_name(workspace,version="latest")

print (dataset_ver2.to_pandas_dataframe())
#    country        code
#0  United States   US
#1  India           IN
#2  United Kingdom  UK
#3  China           CN

dataset_ver2.to_spark_dataframe().show(20)
#+--------------+----+
#|       country|code|
#+--------------+----+
#| United States|  US|
#|         India|  IN|
#|United Kingdom|  UK|
#|         China|  CN|
#| United States|  US|
#|         India|  IN|
#|United Kingdom|  UK|
#|         China|  CN|
#+--------------+----+

如果查看版本2的Spark Dataframe输出，则每行都会重复。而Pandas数据框看起来像预期的那样。这是AzureML API中的错误，还是我做错了什么？

请帮助

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

apache-spark azure-databricks azureml python