移动相机 3d 检测我做得对吗？

我正在研究移动单目相机 3d 检测问题。到目前为止，它有两个主要组成部分：

使用卷积网络（F-RCNN、SSD、YOLO）检测图像平面 (2d) 中的对象。我能够在移动相机上的至少两帧中检测到相同的物体
通过三角测量找到检测到的对象的 3d 位置。为此，我正在构建类似于 here 的本地捆绑调整过程的（简化）版本。我的步骤是：
- 初始化。从前两帧中提取特征（ORB、SWIFT），匹配它们（FLANN），找到 EssentialMatrix，找到第二帧相机矩阵（R|t）并将匹配三角化为 3d。
- 对于每个连续帧：提取特征，与前一帧匹配，找到已经具有相应 3d 点的匹配项，找到帧相机矩阵（通过 PnP），然后对没有 3d 点的匹配项进行三角测量以创建新的3d 点。之后，我运行 Local Bundle Optimization（在 Ceres 上）以调整 n 个最后一个摄像机（帧）和 3d 点的姿势。
- 我得到的结果：

有人可以验证我正在做的事情对这个目的有意义吗？我是否跳过了一些重要的事情？这可以做得更简单吗？有没有类似的例子？谢谢！

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）