问题描述
任务:用第一个字母序列不包含全部大写字母的行之前的空格替换CRLF。
FOO Bar 123 sometext BAR sometext
Foobar,sometext 123
FOOBAR^&%# sometext sometext 1234 5678
Bar 123 456 FOO 789
barfoobar sometext
BAR; sometext (*&%#) FOOBAR 123
预期结果:
FOO Bar 123 sometext BAR sometext Foobar,sometext 123
FOOBAR^&%# sometext sometext 1234 5678 Bar 123 456 FOO 789 barfoobar sometext
BAR; sometext (*&%#) FOOBAR 123
好吧,忘了提及(如果有关系的话),俄语(西里尔字母,Windows-1251)的源文本,以下示例。
AБИДЖАН (Abidjan),город и главный порт государства Кот-д'Ивуар,Aдминистративный центр деп. Абиджан. Ок. 2 млн. жителей
Aдм. ц. французской колонии Берег Слоновой Кости (БСК). В 1960-83 столица Государства БСК.
非常感谢您的帮助。
干杯
迈克尔
解决方法
使用正则表达式替换,并使用unicode序列
打开查找并替换
启用“匹配大小写”
将搜索模式设置为“正则表达式”
查找内容:\r\n([\u0600-\u06FF]{0,1}[\u0061-\u007A]{1,})
替换为: $1
(空格很重要)
经过一系列实验,我可以开发3步解决方案。
- 搜索
(\n[А-Я] ?[A-Я]+)
,并替换为\n#$1
(https://regex101.com/r/nVHqUt/1)。 - 搜索
\r\n
,以空格代替。 - 搜索
#\n
,替换为\r\n
。
感谢大家的帮助!
,- Ctrl + H
- 查找内容:
\R(?![A-ZА-Я]+\b)
- 替换为:
A single space
- 检查 匹配案例
- 检查 环绕
- 检查 正则表达式
- 全部替换
说明:
\R # any kind of linebreak (i.e. \r,\n,\r\n)
(?! # negative lookahead,make sure we haven't after:
[A-ZА-Я]+ # Capital Latin & Cyrillic letters
\b # word boundary,make sure we match a whole word
) # end lookahead
屏幕截图(之前):
屏幕截图(之后):