perl – 如何确定字符串的字符集?

我有几个不同语言的文件.我以为它们都是UTF-8编码,但现在我不太确定.有些角色看起来很好,有些则没有.有没有办法可以打破字符串并尝试识别字符集?也许在白色空间上拆分然后识别每个单词?最后,是否有一种简单的方法可以将字符从一组转换为UTF-8?

解决方法

如果你不确定字符集肯定你只能猜测,基本上. utf8::valid可能会帮助你,但你无法确切知道.如果你知道如果它不是unicode,它必须是一个特定的字符集(如Latin-1),你很幸运.如果你不知道,你就搞砸了.在任何情况下,除非另有说明,否则应始终假设整个文件都在相同的字符集中.如果你不这样做,你将失去理智.

至于你的问题如何在字符集之间进行转换:Encode是为你做的

相关文章

1. 如何去重 #!/usr/bin/perl use strict; my %hash; while(...
最近写了一个perl脚本,实现的功能是将表格中其中两列的数据...
表的数据字典格式如下:如果手动写MySQL建表语句,确认麻烦,...
巡检类工作经常会出具日报,最近在原有日报的基础上又新增了...
在实际生产环境中,常常需要从后台日志中截取报文,报文的形...
最近写的一个perl程序,通过关键词匹配统计其出现的频率,让...