问题描述
我有一些数据可以说明某个影响者是否是机器人。当然,目标数据是二进制值。我需要使用整个数据来计算影响者的分数,而不是直接预测。所以在这里我被困在三个选项中,没有明确的答案,我可以找到使用哪个选项。数据是从 Instagram API 获得的,我将试验一些功能或从其他人的工作中挑选一些。
- 我是否应该训练一个分类器并从最后一层移除 sigmoid 函数以获得连续值并用作分数;这可以在 python 中实现吗?
- 有没有办法用二元目标数据训练回归器,这是否合适?
- 或者我是否只能选择使用我拥有的信息创建一个类似于参与度的公式?
请指导,因为我是新手,现在完全卡住了。
解决方法
这正是 Logistic regression 所做的 - 它计算输入为 1 类的概率。
假设您选择的标签是 [bot,no-bot] = [1,0]
,那么它给您输入是机器人的可能性。