Delta编码器：在Scala中使用Java库

问题描述

我必须比较使用基于Spark的大数据分析数据集（文本文件），这些数据集非常相似（> 98％）但大小非常大。经过研究，我发现最有效的方法可能是使用增量编码器。这样，我就可以获得参考文本，并将其他文本存储为增量增量。但是，我使用的Scala不支持增量编码器，而且我一点也不熟悉Java。但是由于Scala可与Java互操作，所以我知道可以在Scala中使Java库工作。

我发现有前途的实现是xdelta，vcdiff-java和bsdiff。经过更多的搜索，我找到了最有趣的库dez。该链接还提供了性能似乎不错的基准，并且代码可以免费使用并且看起来很轻巧。

在这一点上，我坚持使用Scala中的这个库（通过sbt）。对于解决此障碍的任何建议或参考，我将不胜感激，无论是特定于此问题（delta编码器），库，还是通常在Scala中使用Java API的建议或参考。具体来说，我的问题是：

是否有一个可以直接使用的增量编码器Scala库？（如果没有）
是否可以将类文件/notzed.dez.jar放入项目中，并让sbt在Scala代码中提供API？

我有点陷入这种泥潭，任何出路都将不胜感激。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

delta java java scala