我是否需要检查完整性，使用熊猫从s3上传和下载文件？

问题描述

我使用熊猫以以下样式从s3上传和下载文件（熊猫在后台使用s3fs）

import pandas as pd
pd.read_csv("s3://bucket/path/to/file.csv")

如果文件很大，通常会担心下载（或上传）不完整，并且会处理部分文件。

是否需要在此处实施一些md5检查以确保数据的完整性？还是已经由s3fs处理？

解决方法

简而言之，是的。通常，当人们将大量数据上传到外部存储桶时，他们会为数据提供md5sum，但不幸的是，并非总是如此。如果不验证md5sum，就无法知道数据是否已从存储桶更改为本地计算机。 s3fs有一个校验和方法，我写了一个小的自定义函数来获取字符串的md5，这样，您既可以验证s3中文件对象的md5，又可以在本地读取后计算md5，如下所示：>

import pandas as pd
import io
from hashlib import md5
from s3fs import S3FileSystem

fs = S3FileSystem(anon=False)
checksum = fs.checksum('s3://fun_bucket/check_df.csv')
print("S3FS checksum is: %i" %checksum)

def tokenize(mystr):
    new_str = ""
    for c in mystr.decode():
        new_str += c
    return md5(str(new_str).encode()).hexdigest()


with fs.open('s3://sjcb/check_df.csv') as f:
    data = f.read()
    hash_checksum = int(tokenize(data),16)
    print("Read data checksum is: %i" %hash_checksum)
    if checksum == hash_checksum:
        df = pd.read_csv(io.BytesIO(data),encoding='utf8')

print(df)

当我运行它时，我得到：

S3FS checksum is: 185552205801727997486039422858559195205
Read data checksum is: 185552205801727997486039422858559195205
   one  two  three
0    1    2      3
1    1    2      3
2    1    2      3

这会打印出校验和以供您手动检查，但是如果条件不相等，显然条件将不会生成df。

amazon-s3 pandas python-s3fs