问题描述
我大约 4 天前就注意到了这一点,但现在不知道该怎么做。问题如下:
我有一个 6 节点 3 监视器 ceph 集群,带有 84 个 osds、72x7200rpm 旋转磁盘和 12xnvme ssds 用于日志记录。擦洗配置的每个值都是默认值。集群中的每个 pg 都是 active+clean,每个集群的 stat 都是绿色的。然而,没有及时深入清理的 PG 不断增加,目前为 96。 ceph -s 的输出:
cluster:
id: xxxxxxxxxxxxxxxxx
health: HEALTH_WARN
1 large omap objects
96 pgs not deep-scrubbed in time
services:
mon: 3 daemons,quorum mon1,mon2,mon3 (age 6h)
mgr: mon2(active,since 2w),standbys: mon1
mds: cephfs:1 {0=mon2=up:active} 2 up:standby
osd: 84 osds: 84 up (since 4d),84 in (since 3M)
rgw: 3 daemons active (mon1,mon3)
data:
pools: 12 pools,2006 pgs
objects: 151.89M objects,218 TiB
usage: 479 TiB used,340 TiB / 818 TiB avail
pgs: 2006 active+clean
io:
client: 1.3 MiB/s rd,14 MiB/s wr,93 op/s rd,259 op/s wr
我该如何解决这个问题? ceph 健康详细信息输出还显示,这个非深度清理的 pg 警报始于 1 月 25 日,但我之前没有注意到这一点。我注意到这一点的时间是 osd 下降了 30 秒然后又上升了。它可能与这个问题有关吗?它会自己解决吗?我应该篡改擦洗配置吗?例如,如果我将 osd_max_scrubs 从 1 增加到 2,我在客户端可能会面临多少性能损失?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)