问题描述
我正在尝试对包含大约 4800 种独特产品和 2-3 百万行的非常大的数据集进行购物篮分析。我正在使用 pyodbc 从 sql server 数据库中获取数据。
我最终会留下两列发票编号和产品编号来进行处理。产品中没有唯一项目,没有列,假设大约有 4800 件,这是一家商店的 3 年数据。 我必须对多个商店进行分析,大约 10-12 家商店,在一组分析中最多可以有 5 家商店。
即使我将数据减少到 1 年,也很多。
有谁知道使用 python 处理如此大量的购物篮分析数据的有效方法是什么?
解决方法
您必须清理一些数据。我正在解决同样的问题。 您将遇到一个主要问题,例如。您工作的公司是 7-11,客户只购买一件商品。这会弄乱您的数据。您必须按发票编号和 != 1 分组...我仍在解决如何执行此操作,但这将为您解决很多问题。