检测巨大文件的编码

问题描述

在 Java 中,有几个用于检测文本文件编码的库,例如谷歌的 juniversalchardetTikaEncodingDetector

虽然,对于大文件来说,这需要很长时间。

一种方法是在文件样本(即前 1000 个字节)上使用这些库。这样做的问题是它可能会切断中间的最后一个单词,这可能会“垃圾”它,从而将其识别为不同的编码。

我的建议 - 让我们从末尾删除字节,直到我们看到一个空格(32 ASCII)。这样我们保证不会“破坏”任何单词。

[ 在 UTF-16LE 中,每个字节后跟 '/0',因此为了处理它 - 如果空格的下一个字节是 '/0',我们将尝试使用和检测这个字节块没有前导'/0']

你认为这可行吗?

x <- c("07:31:21","12:03:55","21:07:01")
x %>%
  as_hms() %>%
  with_tz("America/New_York") %>%
  as_hms()

02:31:21
07:03:55
16:07:01

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)