为什么 AWS DMS 偶尔会遇到各种错误?

问题描述

关于这个问题的重要事项是:

  • 偶尔。它工作了一段时间,其他时候遇到错误
  • 错误无处不在
    • S3 连接失败错误 (unable to connect to S3 endpoint,Failed to list S3 bucket),这真的不应该发生,因为它主要是内部的
    • 数据库连接错误,其中源数据库在本地并通过 DX 连接到 AWS
    • 出现错误,但控制台显示正在复制,丢失大量数据
    • 数据库显示 connection is busy,但负载很轻
    • 数据库说存在与 LSN 相关的错误
    • 有些桌子不能用,但有些还好,那些桌子都是普通的,没什么特别的
    • RAM 使用率波动很大,cpu 保持高位,磁盘使用率即使在满载后很长时间也保持很高

记住它确实可以正常工作一段时间,然后无故失败。

解决方法

我在谷歌上搜索了这个非常奇怪的案例,并与 AWS 专家和支持人员合作,但无济于事。

然后我看到了用作复制实例的 t2 实例,并认为这可能是问题的根源。

...原来如此。

当我们将 t2 更改为 r5 时,所有问题都消失了。

似乎是在积分耗尽后,DMS 无法处理 CPU 功率的突然节流,从而导致各种偶尔出现的问题。

没有其他变化。现在只是所有任务都移到了 r5 实例并且运行良好。

所以我知道 t 代表“麻烦”。 远离 T2/T3,除非您真的知道自己可能会遇到什么。