在 spark 和 pandas 之间传递时间戳时出现不一致的行为

问题描述

我正在尝试在 spark 和 pandas 之间共享数据帧,但在处理时间戳时遇到了奇怪的行为(对于非配置 UTC 中生成的时间戳)

给定一个带有时间戳顶级字段和嵌套字段中的时间戳的数据框,它们将被区别对待

df1.show(vertical=True,truncate=False)
-RECORD 0---------------------------
 id  | 1                            
 ts1 | 2021-05-02 04:21:15.918449   
 ts2 | {2021-05-02 04:21:15.918449} 
-RECORD 1---------------------------
 id  | 2                            
 ts1 | 2021-05-02 04:21:15.918449   
 ts2 | {2021-05-02 04:21:15.918449} 
-RECORD 2---------------------------
 id  | 3                            
 ts1 | 2021-05-02 04:21:15.918449   
 ts2 | {2021-05-02 04:21:15.918449} 

df1.toPandas()
    id  ts1 ts2
0   1   2021-05-02 04:23:36.438987  (2021-05-02 11:23:36.438987,)
1   2   2021-05-02 04:23:36.438987  (2021-05-02 11:23:36.438987,)
2   3   2021-05-02 04:23:36.438987  (2021-05-02 11:23:36.438987,)

在顶级字段中,时间戳显示为本地时间,在嵌套中显示为 UTC。

当尝试将数据帧保存到 parquet 并从 Pandas 中读取它时,结果发生了更大的变化,并且嵌套值被转换为 int(从纪元开始的纳秒),而顶级值保持原样。

带有可运行示例的笔记本: https://colab.research.google.com/drive/1QWivTFHR7SS91pVBvCAbpJ3lYWgw0Nk1?usp=sharing

知道不一致的根源是什么吗?

编辑

更多数据

数据框的架构:

root
 |-- id: integer (nullable = true)
 |-- ts1: timestamp (nullable = false)
 |-- ts2: struct (nullable = false)
 |    |-- col1: timestamp (nullable = false)

df1.head()

Row(id=1,ts1=datetime.datetime(2021,5,2,12,3,25,809113),ts2=Row(col1=datetime.datetime(2021,809113)))

解决方法

我认为不一致的根源是结构的表示,它是一个包含 Python 日期时间对象的 Spark Row 对象。因此,在 pandas 数据框中,ts1 列具有 Pandas 日期时间类型,而 ts2 列具有 Spark Row 类型(您可以通过选择 df1.toPandas().t2[0] 来确认这一点)。

Spark Row 类型的问题在于它使用 Python 日期时间对象,该对象遵循 Python 时区而不是 Spark 会话时区。 Spark 可能太聪明而没有意识到这一点,因此在从数据帧到 Row 对象的转换过程中,它会考虑 Spark Session 时区和 Python 时区之间的差异,从而给出您观察到的差异。

要解决此问题,您可以在调用 .toPandas() 之前按如下方式设置 Python 时区:

import os
import time

os.environ['TZ'] = 'America/Los_Angeles'
time.tzset()

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...