问题描述
在 Java 中,有几个用于检测文本文件编码的库,例如谷歌的 juniversalchardet 和 TikaEncodingDetector。
虽然,对于大文件来说,这需要很长时间。
一种方法是在文件样本(即前 1000 个字节)上使用这些库。这样做的问题是它可能会切断中间的最后一个单词,这可能会“垃圾”它,从而将其识别为不同的编码。
我的建议 - 让我们从末尾删除字节,直到我们看到一个空格(32 ASCII)。这样我们保证不会“破坏”任何单词。
[ 在 UTF-16LE 中,每个字节后跟 '/0',因此为了处理它 - 如果空格的下一个字节是 '/0',我们将尝试使用和检测这个字节块没有前导'/0']
你认为这可行吗?
x <- c("07:31:21","12:03:55","21:07:01")
x %>%
as_hms() %>%
with_tz("America/New_York") %>%
as_hms()
02:31:21
07:03:55
16:07:01
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)