Datetime.describe返回数据集中不存在的日期

问题描述

我有这样的df,其中包含日期和时间信息

Visitor_ID                  first                last    Length_of_journey
0   1000001354_2076880299   2020-04-11 09:33:00 2020-04-11 09:33:00 0 days 00:00:00
1   1000002835_926785593    2020-04-28 23:05:00 2020-04-28 23:05:00 0 days 00:00:00
2   1000011338_2143545802   2020-04-28 16:36:00 2020-04-28 16:37:00 0 days 00:01:00
3   1000012332_3700058682   2020-05-25 08:24:00 2020-05-25 08:25:00 0 days 00:01:00
4   1000015044_2522770213   2020-04-14 10:36:00 2020-04-14 10:36:00 0 days 00:00:00
... ... ... ... ...
546912  303454779_2972431612    2020-05-28 14:10:00 2020-05-28 14:11:00 0 days 00:01:00
546913  30345569_1050096538 2020-03-16 15:46:00 2020-03-16 15:46:00 0 days 00:00:00
546914  3034563919_2953374300   2020-04-02 06:53:00 2020-04-02 06:53:00 0 days 00:00:00
546915  3034590742_1737735396   2020-04-02 18:43:00 2020-04-02 18:44:00 0 days 00:01:00
546916  3034591107_1761467257   2020-04-24 06:58:00 2020-05-29 07:39:00 35 days 00:41:00
546917 rows × 4 columns

但是,当我尝试对数据运行describe()时,却得到如下结果:

Length_of_journey
count   546220
mean    1 days 08:29:21.311083
std     9 days 19:30:34.415968
min     0 days 00:00:00
25%     0 days 00:00:00
50%     0 days 00:00:00
75%     0 days 00:01:00
max     3552 days 08:40:00

但是,如果我在excel中检查与CSV相同的列,并按降序对值进行排序,则最多可以得到91天。谁能解释为什么timedelta中的最大值显示3552天?请注意,DateTime的格式正确为datetime64 [ns]

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)