Java UTF-8到ASCII转换与补充

我们接受UTF-8字符串中的各种国家字符输入,我们需要将它们转换成输出的ASCII字符串以供一些遗留使用. (我们不接受中国和日本的字符,只有欧洲语言)

我们有一个小的实用程序来摆脱所有的变音符号:

public static final String toBaseCharacters(final String sText) {
    if (sText == null || sText.length() == 0)
        return sText;

    final char[] chars = sText.tochararray();
    final int iSize = chars.length;
    final StringBuilder sb = new StringBuilder(iSize);

    for (int i = 0; i < iSize; i++) {
        String sLetter = new String(new char[] { chars[i] });
        sLetter = normalizer.normalize(sLetter,normalizer.Form.NFC);

        try {
            byte[] bLetter = sLetter.getBytes("UTF-8");
            sb.append((char) bLetter[0]);
        } catch (UnsupportedEncodingException e) {
        }
    }
    return sb.toString();
}

问题是如何替代所有德国锋利(ß,Đ,đ)和其他通过上述标准化方法的字符,其补充(在ß的情况下,补充可能是“ss”,如果odĐ补充将是“D”或“Dj”).

有没有一些简单的方法来做,没有百万的.replaceAll()调用

所以例如:Đonardan= Djonardan,Blaß= Blass等等.

我们可以用空格替换所有“有问题的”字符,但是要避免这样做,使输出与输入尽可能相似.

谢谢你的答案,

博佐

解决方法

Is there some simple way to do it,without million of .replaceAll() calls?

如果你只是支持欧洲,拉丁语的语言,大约100左右就够了这绝对可行:抓住Latin-1 SupplementLatin Extended-AUnicode charts,并开始String.replace派对.

相关文章

最近看了一下学习资料,感觉进制转换其实还是挺有意思的,尤...
/*HashSet 基本操作 * --set:元素是无序的,存入和取出顺序不...
/*list 基本操作 * * List a=new List(); * 增 * a.add(inde...
/* * 内部类 * */ 1 class OutClass{ 2 //定义外部类的成员变...
集合的操作Iterator、Collection、Set和HashSet关系Iterator...
接口中常量的修饰关键字:public,static,final(常量)函数...