如何使用序数分类器?

问题描述

我正在尝试在训练练习中实现序数分类器,但遇到了一些问题。我不能使用一对一分类器,因为我的类是有序的。序数分类器没有函数,所以我在互联网上找到了下面的这段代码。 (来源:https://towardsdatascience.com/simple-trick-to-train-an-ordinal-regression-with-any-classifier-6911183d2a3c)。

我对我应该如何使用它感到困惑......我有一个训练和测试数据集......但我如何合并这些?例如,对于逻辑回归,我知道你会有这样的代码

model = LogisticRegression()    
model.fit(x_train,y_train)

但是我如何使用此代码?以及如何获得概率?

来自网站的代码

from sklearn.base import clone
    
class OrdinalClassifier():
        
    def __init__(self,clf):
        self.clf = clf
        self.clfs = {}
    
    def fit(self,X,y):
        self.unique_class = np.sort(np.unique(y))
        if self.unique_class.shape[0] > 2:
            for i in range(self.unique_class.shape[0]-1):
                # for each k - 1 ordinal value we fit a binary classification problem
                binary_y = (y > self.unique_class[i]).astype(np.uint8)
                clf = clone(self.clf)
                clf.fit(X,binary_y)
                self.clfs[i] = clf
    
    def predict_proba(self,X):
        clfs_predict = {k:self.clfs[k].predict_proba(X) for k in self.clfs}
        predicted = []
        for i,y in enumerate(self.unique_class):
            if i == 0:
                # V1 = 1 - Pr(y > V1)
                predicted.append(1 - clfs_predict[y][:,1])
            elif y in clfs_predict:
                # Vi = Pr(y > Vi-1) - Pr(y > Vi)
                 predicted.append(clfs_predict[y-1][:,1] - clfs_predict[y][:,1])
            else:
                # Vk = Pr(y > Vk-1)
                predicted.append(clfs_predict[y-1][:,1])
        return np.vstack(predicted).T
    
    def predict(self,X):
        return np.argmax(self.predict_proba(X),axis=1)

解决方法

在运行代码时遇到了一些错误,所以我对代码做了一些修改:

from sklearn.base import clone
import numpy as np
# Source:
# 1. https://stackoverflow.com/questions/66486947/how-to-use-ordinal-classifier
# 2. https://towardsdatascience.com/simple-trick-to-train-an-ordinal-regression-with-any-classifier-6911183d2a3c


class OrdinalClassifier():

    def __init__(self,clf):
        self.clf = clf
        self.clfs = {}

    def fit(self,X,y):
        self.unique_class = np.sort(np.unique(y))
        if self.unique_class.shape[0] > 2:
            for i in range(self.unique_class.shape[0] - 1):
                # for each k - 1 ordinal value we fit a binary classification problem
                binary_y = (y > self.unique_class[i]).astype(np.uint8)
                clf = clone(self.clf)
                clf.fit(X,binary_y)
                self.clfs[i] = clf

    def predict_proba(self,X):
        clfs_predict = {k: v.predict_proba(X) for k,v in self.clfs.items()}
        predicted = []
        for i,y in enumerate(self.unique_class):
            if i == 0:
                # V1 = 1 - Pr(y > V1)
                predicted.append(1 - clfs_predict[i][:,1])
            elif y in clfs_predict:
                # Vi = Pr(y > Vi-1) - Pr(y > Vi)
                predicted.append(clfs_predict[i - 1][:,1] - clfs_predict[i][:,1])
            else:
                # Vk = Pr(y > Vk-1)
                predicted.append(clfs_predict[i - 1][:,1])
        return np.vstack(predicted).T

    def predict(self,X):
        return self.unique_class[np.argmax(self.predict_proba(X),axis=1)]

回到你的问题:

我有一个训练和测试数据集……但我如何合并这些数据?

您可以轻松实现如下代码:

knn = KNeighborsClassifier()
oc = OrdinalClassifier(knn)
oc.fit(X_train,y_train)
oc.predict(X_test)

输出将是测试集的预测类标签。因此,您可以调用 sklearn 的混淆矩阵来检查准确性等。

我如何获得概率?

您可以获得每个类别的概率,如下所示:

oc.predict_proba(X_test)

您将获得具有 m x n 维的 numpy 二维数组中每个类的概率,其中 m 是实例的数量,n 是类的数量

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...