检测巨大文件的编码

在 Java 中，有几个用于检测文本文件编码的库，例如谷歌的 juniversalchardet 和 TikaEncodingDetector。

虽然，对于大文件来说，这需要很长时间。

一种方法是在文件样本（即前 1000 个字节）上使用这些库。这样做的问题是它可能会切断中间的最后一个单词，这可能会“垃圾”它，从而将其识别为不同的编码。

我的建议 - 让我们从末尾删除字节，直到我们看到一个空格（32 ASCII）。这样我们保证不会“破坏”任何单词。

[ 在 UTF-16LE 中，每个字节后跟 '/0'，因此为了处理它 - 如果空格的下一个字节是 '/0'，我们将尝试使用和检测这个字节块没有前导'/0']

你认为这可行吗？

x <- c("07:31:21","12:03:55","21:07:01")
x %>%
  as_hms() %>%
  with_tz("America/New_York") %>%
  as_hms()

02:31:21
07:03:55
16:07:01

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）