问题描述
我们目前使用Scala spark应用程序,该应用程序将复制命令启动到aurora Postgres写入实例。
管道每天写入约5Tb的数据,并以并行方式写入不同的分区。几乎有500个活动会话都是复制命令。
写入过程大约需要6个小时,这并不是说每个问题,但是在此期间,写入实例变得非常缓慢,这使得平台(指向写入实例)在此期间给出超时错误。
现在,我们将平台指向只读副本,但是结果不是很好。在这些并行写入期间,只读副本滞后很多,以致实例不断重启。滞后指标浮动(写持续时间为100k ms,而通常保持在100ms以下)。
我尝试采用一种混合方法来按顺序扩展写操作,这样一次最多可以运行100个复制命令,但是即使采用这种方法,在写时间上,延迟也会偶尔达到40-50k ms也增加了。该解决方案目前可以使用,但绝对不是未来的证明。
我的问题基本上是以前曾与aurora合作过的数据工程师。如何处理aurora postgres的副本滞后问题,尤其是写大约5Tb的数据。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)