问题描述
我正在尝试在 spark 和 pandas 之间共享数据帧,但在处理时间戳时遇到了奇怪的行为(对于非配置 UTC 中生成的时间戳)
给定一个带有时间戳顶级字段和嵌套字段中的时间戳的数据框,它们将被区别对待
df1.show(vertical=True,truncate=False)
-RECORD 0---------------------------
id | 1
ts1 | 2021-05-02 04:21:15.918449
ts2 | {2021-05-02 04:21:15.918449}
-RECORD 1---------------------------
id | 2
ts1 | 2021-05-02 04:21:15.918449
ts2 | {2021-05-02 04:21:15.918449}
-RECORD 2---------------------------
id | 3
ts1 | 2021-05-02 04:21:15.918449
ts2 | {2021-05-02 04:21:15.918449}
df1.toPandas()
id ts1 ts2
0 1 2021-05-02 04:23:36.438987 (2021-05-02 11:23:36.438987,)
1 2 2021-05-02 04:23:36.438987 (2021-05-02 11:23:36.438987,)
2 3 2021-05-02 04:23:36.438987 (2021-05-02 11:23:36.438987,)
在顶级字段中,时间戳显示为本地时间,在嵌套中显示为 UTC。
当尝试将数据帧保存到 parquet 并从 Pandas 中读取它时,结果发生了更大的变化,并且嵌套值被转换为 int(从纪元开始的纳秒),而顶级值保持原样。
带有可运行示例的笔记本: https://colab.research.google.com/drive/1QWivTFHR7SS91pVBvCAbpJ3lYWgw0Nk1?usp=sharing
知道不一致的根源是什么吗?
编辑
更多数据
数据框的架构:
root
|-- id: integer (nullable = true)
|-- ts1: timestamp (nullable = false)
|-- ts2: struct (nullable = false)
| |-- col1: timestamp (nullable = false)
df1.head()
Row(id=1,ts1=datetime.datetime(2021,5,2,12,3,25,809113),ts2=Row(col1=datetime.datetime(2021,809113)))
解决方法
我认为不一致的根源是结构的表示,它是一个包含 Python 日期时间对象的 Spark Row 对象。因此,在 pandas 数据框中,ts1
列具有 Pandas 日期时间类型,而 ts2
列具有 Spark Row 类型(您可以通过选择 df1.toPandas().t2[0]
来确认这一点)。
Spark Row 类型的问题在于它使用 Python 日期时间对象,该对象遵循 Python 时区而不是 Spark 会话时区。 Spark 可能太聪明而没有意识到这一点,因此在从数据帧到 Row 对象的转换过程中,它会考虑 Spark Session 时区和 Python 时区之间的差异,从而给出您观察到的差异。
要解决此问题,您可以在调用 .toPandas()
之前按如下方式设置 Python 时区:
import os
import time
os.environ['TZ'] = 'America/Los_Angeles'
time.tzset()