Pyspark-指定火车测试拆分的实际大小而不是比率?

问题描述

是否可以通过指定我想要的实际大小而不是使用比率将数据帧分为训练集和测试集?我看到大多数示例都使用randomSplit。.

463715个训练样本

51630个测试样品

在scikit-learn中,我能够做到这一点,例如:

{
   "users":[
      {
         "customerId":"2kXE3upOg5hnOG","ccoId":"paalle","userGroups":[
            "CX Cloud Super Admins","CX Cloud Admins","aAutoGroupMarked12"
         ],"emailId":"[email protected]","fullName":"Pavan Alle","isSelected":true
      },{
         "customerId":"2kXE3upOg5hnOG","ccoId":"rtejanak","userGroups":[
            "aTestUserGroupname1234"
         ],"emailId":"[email protected]","fullName":"Raja ravi Teja Nakirikanti"
      }
   ],"pagination":{
      "pageNumber":1,"totalPages":2,"rowPerPage":10,"totalRows":11
   }
}

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)