如何按时间顺序比较两个数字列表

问题描述

假设我想购买市场价格数据,并且我有两个样本数据文件,分别来自 A 和 B 两家公司的同一时间段的 A.csv、B.csv。B 享有声誉,因此其质量值得信赖要好。 A 提供非常低的价格。

所以,我想要做的是统计A.csv和B.csv中的公共行数。但是,考虑到以下棘手的问题,我不知道如何有效地比较它们。

可能是 A.csv 中的某些行在 B.csv 中未显示,或者 B.csv 中的某些行在 A.csv 中未显示。因此,我不能严格地将第 i 行与第 i 行进行比较。 A.csv 中的第 i 行实际上可能是 B.csv 中的第 i+k 行。在这种情况下,它应该算作公共线。这个比较的重点是我想要一个百分比,说明 A.csv 有多少与 B.csv 相同。例如,A.csv 有 1000 行,B.csv 有 1002 行,共有 981 行。我仍然会购买 A.csv。 (实际上,这两个文件都有数百万行)。在这种情况下,我如何有效地比较 A.csv 和 B.csv?

两个文件的格式如下:

时间戳 |价格 |数量 | 100.6 | 50

我更喜欢按列比较行。例如,一个价格比较,一个时间戳比较,一个数量比较。对于时间戳列,它们的粒度为纳秒级。我将使用 python 的时间增量分别比较不同分辨率(秒、毫秒、微秒、纳秒)上的相等性

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)