问题描述
在之前的question中,我描述了我遇到的编码问题。不幸的是,我的问题仍然没有解决。我的向量字符串如下:
\
您可能会看到,只有在波兰字母的情况下才会出现失真。
地区特定信息
drawable
dput(。)输出是
Sys.setlocale("LC_ALL","Polish")
options(stringsAsFactors = FALSE,FileEncoding = "UTF-8",scipen = 999,encoding="UTF-8")
#=====
Sys.getlocale()
#LC_COLLATE=Polish_Poland.1250;LC_CTYPE=Polish_Poland.1250;LC_MONETARY=Polish_Poland.1250;LC_NUMERIC=C;LC_TIME=Polish_Poland.1250
"jednostka wojskowa nr 4229"
"niepubliczny punkt przedszkolny \"wesoa<U+0453>e a»abki\""
"kpt spa“a<U+0453>ka z ograniczon<U+0434>„ odpowiedzialnoa<U+0459>ci<U+0434>„"
"xxxxxxxx iwona"
"\"hydro - mont\" dariusz xxxxxxxx"
"kamil xxxxxxxx \"izmir'"
"elita s.c. marlena szatkowska tomasz szatkowski"
"\"progres spa“a<U+0453>ka z ograniczon<U+0434>„ odpowiedzialnoa<U+0459>ci<U+0434>„\" spa“a<U+0453>ka komandytowa"
"firma \"rafbud\" rafaa<U+0453> xxxxxxxx"
"\"ivtel\" iwona xxxxxxxx"
"przedsi<U+0434>\231biorstwo produkcyjno handlowo usa‚ugowe \"meblohand\" leonard xxxxxxxx"
"ad-bet adrian xxxxxxxx"
"radosa<U+0453>aw xxxxxxxx pphu metalaser"
"katarzyna xxxxxxxx"
"drukomp andrzej xxxxxxxx"
"\"szypryt i.szypryt,a.szypryt spa“a<U+0453>ka jawna.\""
"firma handlowa \"eden ii\" krystyna xxxxxxxx"
"grzegorz xxxxxxxx extreme gym"
"przedszkole niepubliczne im.janusza korczaka"
的 stri_enc_detect(。)和
"niepubliczny punkt przedszkolny \"wesoa<U+0453>e a»abki\""
"\"szypryt i.szypryt,a.szypryt spa“a<U+0453>ka jawna.\""
guess_encoding(。)输出
[[1]]
Encoding Language Confidence
1 UTF-8 0.80
2 windows-1250 pl 0.30
3 windows-1252 it 0.18
4 UTF-16BE 0.10
5 UTF-16LE 0.10
6 Shift_JIS ja 0.10
7 GB18030 zh 0.10
8 Big5 zh 0.10
9 IBM420_rtl ar 0.05
10 IBM420_ltr ar 0.05
[[2]]
Encoding Language Confidence
1 UTF-8 0.80
2 windows-1250 hu 0.38
3 windows-1252 sv 0.25
4 UTF-16BE 0.10
5 UTF-16LE 0.10
6 Shift_JIS ja 0.10
7 GB18030 zh 0.10
8 Big5 zh 0.10
9 windows-1254 tr 0.06
当我使用带有编码错误的字符串的 print(。)时,我得到了类似的东西
encoding confidence
1 UTF-8 1
2 windows-1250 0.24
但是,当我使用 stri_escape_unicode(。)时,变形的符号如下:
[1] "niepubliczny punkt przedszkolny \"wesoaѓe a»abki\""
带有字节的示例字符串:
[1] "niepubliczny punkt przedszkolny \\\"wesoa\\u0453e a\\u00bbabki\\\""
此问题以及我上一个问题中的所有数据都是使用UTF-8编码从源中获取的,但是当我使用#rawToChar('niepubliczny punkt przedszkolny "wesoa<U+0453>e a»abki"')
6e 69 65 70 75 62 6c 69 63 7a 6e 79 20 70 75 6e 6b 74 20 70 72 7a 65 64 73 7a 6b 6f 6c 6e
79 20 22 77 65 73 6f 61 3c 55 2b 30 34 35 33 3e 65 20 61 bb 61 62 6b 69 22
desired <- 'niepubliczny punkt przedszkolny "wesołe żabki"'
时,它将不起作用。 将为您提供帮助。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)