Notepad ++有条件替换

问题描述

任务:用一个字母序列不包含全部大写字母的行之前的空格替换CRLF。

我有文字

FOO Bar 123 sometext BAR sometext
Foobar,sometext 123
FOOBAR^&%# sometext sometext 1234 5678
Bar 123 456 FOO 789
barfoobar sometext
BAR; sometext (*&%#) FOOBAR 123

预期结果:

FOO Bar 123 sometext BAR sometext Foobar,sometext 123
FOOBAR^&%# sometext sometext 1234 5678 Bar 123 456 FOO 789 barfoobar sometext
BAR; sometext (*&%#) FOOBAR 123

好吧,忘了提及(如果有关系的话),俄语(西里尔字母,Windows-1251)的源文本,以下示例。

AБИДЖАН (Abidjan),город и главный порт государства Кот-д'Ивуар,Aдминистративный центр деп. Абиджан. Ок. 2 млн. жителей 
Aдм. ц. французской колонии Берег Слоновой Кости (БСК). В 1960-83 столица Государства БСК.

非常感谢您的帮助。

干杯

迈克尔

解决方法

使用正则表达式替换,并使用unicode序列

打开查找并替换

启用“匹配大小写”

将搜索模式设置为“正则表达式”

查找内容:\r\n([\u0600-\u06FF]{0,1}[\u0061-\u007A]{1,})

替换为: $1(空格很重要)

,

经过一系列实验,我可以开发3步解决方案。

  1. 搜索(\n[А-Я] ?[A-Я]+),并替换为\n#$1https://regex101.com/r/nVHqUt/1)。
  2. 搜索\r\n,以空格代替。
  3. 搜索#\n,替换为\r\n

感谢大家的帮助!

,
  • Ctrl + H
  • 查找内容:\R(?![A-ZА-Я]+\b)
  • 替换为:A single space
  • 检查 匹配案例
  • 检查 环绕
  • 检查 正则表达式
  • 全部替换

说明:

\R                  # any kind of linebreak (i.e. \r,\n,\r\n)
(?!                 # negative lookahead,make sure we haven't after:
    [A-ZА-Я]+           # Capital Latin & Cyrillic letters
    \b                  # word boundary,make sure we match a whole word
)                   # end lookahead

屏幕截图(之前):

enter image description here

屏幕截图(之后):

enter image description here

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...