问题描述
因此,直接解决问题。我们有许多拥有本地MongoDB的客户端,每天都会生成新数据并将其存储在.TSV文件中,这些文件使用mongoimport(插入,更新和合并)上传到他们的数据库中,可以实现增量负载。 >
我们已经有一个_id字段用作mongo的键,因此mongo可以通过这种方式自动检测文档是否已经存在,如果不存在,他将导入该文档,这有点像是增量加载(再次提到mongoimport以上)。
由于我们已经可以正确执行插入和更新操作,因此,我们现在尝试执行的操作如下:
请记住,我们已经创建了_id,也许我们可以将其用作比较键。
基本上,我们想要实现的是存储在客户端本地mongo中的数据与导入的.TSV文件中的数据存储相同,因此mongo将成为客户端数据的“镜像”。所有这些都无需每天删除和上传所有内容。
我希望已经足够清楚地了解我们想要做什么。
谢谢!
解决方法
我倾向于用等效的pymongo加载例程(必须开发)替换mongoimport,该例程将加载数据并添加添加了当前日期/时间的“ LastUpdated”字段。
完成后,删除自加载开始以来未更新的所有文档。
祝你好运!