使用 Python 对具有数百万行的大型数据集进行购物篮分析

我正在尝试对包含大约 4800 种独特产品和 2-3 百万行的非常大的数据集进行购物篮分析。我正在使用 pyodbc 从 sql server 数据库中获取数据。

我最终会留下两列发票编号和产品编号来进行处理。产品中没有唯一项目，没有列，假设大约有 4800 件，这是一家商店的 3 年数据。我必须对多个商店进行分析，大约 10-12 家商店，在一组分析中最多可以有 5 家商店。

即使我将数据减少到 1 年，也很多。

有谁知道使用 python 处理如此大量的购物篮分析数据的有效方法是什么？

您必须清理一些数据。我正在解决同样的问题。您将遇到一个主要问题，例如。您工作的公司是 7-11，客户只购买一件商品。这会弄乱您的数据。您必须按发票编号和 != 1 分组...我仍在解决如何执行此操作，但这将为您解决很多问题。

相关问答