问题描述
我有一个数据集,其中包含 300 多个不同车型、一些汽车、一些自行车和 10 多行特征(颜色、大小、mpg 等)的条目。
如果汽车/自行车实际上并未在数据集中进行分类(尽管它是有序的,即只有列1:200 是汽车,201:300 是自行车)。
我认为我需要创建数据集的子集,但我不知道如何将原始数据集中的特征与子集相关联。
抱歉,如果解释不当,感谢您的帮助!
解决方法
我认为您应该首先重构您的数据框(您可能希望在行中查看车辆模型,在列中查看特征。我建议使用 t()
作为转置函数,然后添加另一列包含虚拟变量(如果汽车类型为 1是汽车,如果不是,则为 0。现在,您可以使用 glm()
(如果要拟合逻辑回归)或使用 lm()
(线性回归)将汽车类型回归到 mpg。