问题描述
我正在 Notepad++ 上更正一些字幕(.srt 文件)。
我想解决的问题:有些词组(字幕)有一个'.' (endpoint) 在行尾,但短语会继续到下一个字幕(向下几行,在带有字幕索引的一行和带有时间码的一行之后)。
我想做什么:如果下一个副标题(下面几行)以小写字符 [a-z] 开头,我想删除一行的端点
示例:
我想转这个:
124
01:09:01,200 --> 01:09:02,800
卢克,我是。
125
01:09:02,800 --> 01:09:04,900
你的父亲。
进入这个:
124
01:09:01,800
卢克,我是
125
01:09:02,900
你的父亲。
到目前为止我得到了什么:我可以使用这个 REGEX 代码找到我想要删除的端点:
查找:
(\.)+(\n\n[0-9][0-9][0-9]\r\n[0-9][0-9]:[0-9][0-9]:[0-9][0-9],[0-9][0-9][0-9] --> [0-9][0-9]:[0-9][0-9]:[0-9][0-9],[0-9][0-9][0-9]\r\n[a-z])
但我不明白应该在'替换'字段中输入什么内容。 我只想替换端点 (.)
请原谅我,如果这是一个“愚蠢”的问题,我正在尝试一个弱者,但我无法弄清楚,我是正则表达式的新手。 感谢您的帮助。
编辑: 如果将替换字段留空,它会删除所有这些: . 字幕索引 (125) 字幕时间码 (01:09:02,900)
解决方法
- Ctrl+H
- 查找内容:
\.(?=\R\R[\d:,\s\->]+?\R[a-z])
- 替换为:
LEAVE EMPTY
- 检查 匹配案例
- 检查 环绕
- 检查 正则表达式
- 全部替换
说明:
\. # a dot
(?= # lookahead,make sure we have after:
\R\R # 2 any kind of linebreak
[\d:,\s\->]+? # 1 or more digit,colon,comma,space,hyphen,greater than
\R # any kind of linebreak
[a-z] # a lowercase letter
)
屏幕截图(之前):
屏幕截图(之后):
,不知道为什么在我之前有 3 个已删除的答案,但这会做到:
\.(?=[\r\n]+\d+[\r\n]+\d\d:\d\d:\d\d,\d+ --> \d\d:\d\d:\d\d,\d+[\r\n]+[a-z])
,
使用正则表达式 \.(?=\R+\d+\R+.*?\R+[a-z])
并选中“Match case”、“Wrap around”和“Regular expression”,并将替换文本留空。
-
\.
匹配终点 -
(?=<expression>)
是一个展望。即,它必须匹配但不是搜索结果的一部分,因此不会被替换。 -
\R+
匹配行尾字符(至少一个)。 -
\d+
是数字。 -
.*?
是任意数量的任意字符,但尽可能少。这代表时间范围,但不会吞下以下模式(因为?
)。[a-z]
匹配小写字母。