问题描述
我必须比较使用基于Spark的大数据分析数据集(文本文件),这些数据集非常相似(> 98%)但大小非常大。经过研究,我发现最有效的方法可能是使用增量编码器。这样,我就可以获得参考文本,并将其他文本存储为增量增量。但是,我使用的Scala不支持增量编码器,而且我一点也不熟悉Java。但是由于Scala可与Java互操作,所以我知道可以在Scala中使Java库工作。
我发现有前途的实现是xdelta,vcdiff-java和bsdiff。经过更多的搜索,我找到了最有趣的库dez。该链接还提供了性能似乎不错的基准,并且代码可以免费使用并且看起来很轻巧。
在这一点上,我坚持使用Scala中的这个库(通过sbt)。对于解决此障碍的任何建议或参考,我将不胜感激,无论是特定于此问题(delta编码器),库,还是通常在Scala中使用Java API的建议或参考。具体来说,我的问题是:
-
是否有一个可以直接使用的增量编码器Scala库? (如果没有)
-
是否可以将类文件/notzed.dez.jar放入项目中,并让sbt在Scala代码中提供API?
我有点陷入这种泥潭,任何出路都将不胜感激。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)