无法从 MongoDB 或 DocumentDB 查询存档集合

问题描述

说明

背景:

MongoDB 被弃用,转而使用 DocumentDB,因此产品工程将数据移至 DocumentDB。移后,Mongo 中的相应集合将被存档以妥善保管

问题陈述:

当前的归档过程是在一个集合上运行mongodump,最后按特定分区生成一个bson.gz文件 但是,当需要回读数据时,这不是很方便访问: 必须在所有必需的 bson.gz 文件上运行 mongorestore 到 Mongo / DocumentDB 集群中,然后再查询回来

解决的问题:

1.归档数据的正确流程应该是什么?什么时候存档?多频繁? 2.mongodump 正在 EC2 实例上运行,如何在不通过 SSH 连接到服务器的情况下运行?并且可供所有计划存档其数据的团队运行。 3.存储归档数据的正确方法应该是什么? 4.转储(如果有)应该如何分区? 5.什么是提高可读性的正确输出格式?我们可以用什么工具(查询引擎)读取它? 6.当需要时,用户应该如何读回数据? 7.数据组织结构应假设与多个 Pod、应用程序、表/集合等一起使用

其他上下文:

现有查询引擎:

Spark/Python

我们在 Redshift 上,但计划迁移到 SNowflake(这些是否支持查询存档数据,如果是,如何?)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)