问题描述
我是数据科学的新手,实际上尝试构建我的第一个模型。
我对使用split函数的正确方法感到困惑。大多数文档建议采用以下方法(其中X = data和Y =标签):
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=1)
@H_404_4@
我有一个不带标签(X = data)的数据集,并希望基于该数据集建立模型以预测异常。这意味着,我实际上只能将数据集分成2个(部分:X_train和X_test)。但是我不确定这对我的数据集是否正确,并且想知道如何继续获取y。谢谢您的支持
解决方法
您可以在link中看到示例。该功能也可以作用于一个变量
train_test_split(y,shuffle = False)
对于您而言,答案将是
inversedBy