Notepad ++有条件替换

问题描述

任务：用第一个字母序列不包含全部大写字母的行之前的空格替换CRLF。

FOO Bar 123 sometext BAR sometext
Foobar,sometext 123
FOOBAR^&%# sometext sometext 1234 5678
Bar 123 456 FOO 789
barfoobar sometext
BAR; sometext (*&%#) FOOBAR 123

预期结果：

FOO Bar 123 sometext BAR sometext Foobar,sometext 123
FOOBAR^&%# sometext sometext 1234 5678 Bar 123 456 FOO 789 barfoobar sometext
BAR; sometext (*&%#) FOOBAR 123

好吧，忘了提及（如果有关系的话），俄语（西里尔字母，Windows-1251）的源文本，以下示例。

AБИДЖАН (Abidjan),город и главный порт государства Кот-д'Ивуар,Aдминистративный центр деп. Абиджан. Ок. 2 млн. жителей 
Aдм. ц. французской колонии Берег Слоновой Кости (БСК). В 1960-83 столица Государства БСК.

非常感谢您的帮助。

干杯

迈克尔

解决方法

使用正则表达式替换，并使用unicode序列

打开查找并替换

启用“匹配大小写”

将搜索模式设置为“正则表达式”

查找内容：\r\n([\u0600-\u06FF]{0,1}[\u0061-\u007A]{1,})

替换为： $1（空格很重要）

经过一系列实验，我可以开发3步解决方案。

搜索(\n[А-Я] ?[A-Я]+)，并替换为\n#$1（https://regex101.com/r/nVHqUt/1）。
搜索\r\n，以空格代替。
搜索#\n，替换为\r\n。

感谢大家的帮助！

Ctrl + H
查找内容：\R(?![A-ZА-Я]+\b)
替换为：A single space
检查 匹配案例
检查环绕
检查 正则表达式
全部替换

说明：

\R                  # any kind of linebreak (i.e. \r,\n,\r\n)
(?!                 # negative lookahead,make sure we haven't after:
    [A-ZА-Я]+           # Capital Latin & Cyrillic letters
    \b                  # word boundary,make sure we match a whole word
)                   # end lookahead

屏幕截图（之前）：

屏幕截图（之后）：

notepad++