使用 Python 对具有数百万行的大型数据集进行购物篮分析

问题描述

我正在尝试对包含大约 4800 种独特产品和 2-3 百万行的非常大的数据集进行购物篮分析。我正在使用 pyodbc 从 sql server 数据库获取数据。

我最终会留下两列发票编号和产品编号来进行处理。产品中没有唯一项目,没有列,假设大约有 4800 件,这是一家商店的 3 年数据。 我必须对多个商店进行分析,大约 10-12 家商店,在一组分析中最多可以有 5 家商店。

即使我将数据减少到 1 年,也很多。

有谁知道使用 python 处理如此大量的购物篮分析数据的有效方法是什么?

解决方法

您必须清理一些数据。我正在解决同样的问题。 您将遇到一个主要问题,例如。您工作的公司是 7-11,客户只购买一件商品。这会弄乱您的数据。您必须按发票编号和 != 1 分组...我仍在解决如何执行此操作,但这将为您解决很多问题。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...