问题描述
我通过销售价格、浏览量和运费来估算销售额。该数据使用来自真实在线购物中心的数据。所有这些数据异常都已被删除。
但是,问题是使用回归、随机森林、KNN等模块时准确率太低。结果不就是解释了销售价格、观看次数和运费都不是决定销量的因素吗?
result10 = pd.read_csv('result10.csv')
result10.head() # (170,4) data
价格 | 查看 | 运费 | 音量 | |
---|---|---|---|---|
0 | 5330 | 279 | 3000 | 5 |
1 | 4200 | 681 | 3000 | 18 |
2 | 6000 | 1456 | 4000 | 39 |
3 | 10000 | 445 | 2500 | 7 |
4 | 10420 | 304 | 3000 | 4 |
import statsmodels.api as sm
import statsmodels.formula.api as smf
feature_names = result10.columns.to_list()
feature_names.remove('volume')
model = sm.OLS.from_formula("volume ~ "+"+".join(feature_names),data = result10)
res = model.fit()
print(res.summary())
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)