如果在高负载场景下将带有 HDFS 的 PostgreSQL 作为文件系统部署会发生什么?

问题描述

这是一个故意愚蠢的问题。但我只是好奇 - 如果我使用 FUSE 绑定作为卷挂载 HDFS 并使用存储在该 HDFS 卷上的集群启动 Postgresql 并开始写入大量数据和/或进行高强度读取,会发生什么?

解决方法

首先我不认为这是一个愚蠢的问题,话虽如此,让我们使用一些定义,我们可以从这一点继续:

保险丝:

FUSE 是一个用户空间文件系统框架。它由一个内核模块、一个用户空间库和一个挂载工具(fusermount)组成。

HDFS(Hadoop 分布式文件系统):

分布在许多联网计算机或节点之间的文件系统。 HDFS 是容错的,因为它在文件系统上存储文件的多个副本,默认复制级别为 3。

所以我认为你的问题@Gill Bates 的简短版本是:HDFS 会影响 Postgres 数据库的性能吗(当然假设 Postgres 集群存储在 HDFS 中)?

简短的回答是,取决于您的配置,但可能是的,如上所述,您可以将 HDFS 视为文件系统,当然,Postgres 将数据存储在文件系统中,因此它会受您使用的文件系统的影响,假设您执行多个操作 read/write,将分布式文件系统作为 HDFS 的一大优势是支持文件的多个副本, 大大减少了许多客户端访问单个文件的常见瓶颈,从而有助于更好地扩展。

所以直接回答你的问题:如果我开始写入大量数据和/或进行高强度阅读会怎样?

无论您的文件系统是 HDFS(这可以帮助您更好地扩展并同时为您的文件系统增加容错能力)与否,可以直接确定/影响您的数据库的参数在压力测试下的反应是:

  • 索引
  • 分区
  • 检查点
  • 抽真空、分析(使用 FILLFACTOR)
  • 查询定义

当然,也取决于您的堆栈(您提供的服务器/主机有多好),根据我的经验,这些事实可能会对您的 Postgres 数据库产生更大的影响(附在下面一些可能有助于澄清更多信息的链接中 ? ).

希望以上内容有助于澄清! ?