如何防止 JavaScript 正则表达式中的空格?

问题描述

我在下面有这段 JavaScript 代码,用于删除给定单词 (ستاک ئەڤەفلۆو) 中的空格,我在 Console.log 中尝试了它,但它有问题。

var text = "ئایا ستاک ئەڤەفلۆو مانای چییە؟ دووبارە ستاک ئەڤەفلۆو مانای چییە؟";

text = text.replace(
            new RegExp("(^|\\s|_|«|»|\\[|\\(|\\<|\\>|\\')(ستاک ئەڤەفلۆو)(?= |«|»|\\.|،|_|\\]|\\s|\\:|\\)|\\<|\\>|؟|\\'|\\!|$)",'g'),function (x) { return x.replace(/ /gi,''); } // 'i' is just to trick bidi algorithm on code view
        );

以下是错误输出

ئایاستاکئەڤەفلۆو مانای چییە؟ دووبارەستاکئەڤەفلۆو مانای چییە؟

删除给定字符串之前的空格,因此它将给定字符串与前一个单词合并。

输出应该是:

ئایا ستاکئەڤەفلۆو مانای چییە؟ دووبارە ستاکئەڤەفلۆو مانای چییە؟

谢谢!

解决方法

我建议通过将单个字符替代项合并到字符类中来删除转义符,并通过仅删除第 2 组中的空格而不是第 1 组中的空格来解决该问题。

var text = "ئایا ستاک ئەڤەفلۆو مانای چییە؟ دووبارە ستاک ئەڤەفلۆو مانای چییە؟";

text = text.replace(
  new RegExp("(^|[\\s_«»[(<>'])(ستاک ئەڤەفلۆو)(?=[«».،_\\]\\s:)<>؟'!]|$)",'g'),function (x,punct,word) { return (punct || "") + word.replace(/\s+/gi,''); }
);
console.log(text)

所以,正则表达式的意思是

  • (^|[\s_«»[(<>']) - 捕获组 1(替换回调函数中的 punct):字符串的开头,或空格,_«»[(<>'
  • (ستاک ئەڤەفلۆو) - 捕获第 2 组 (word):一些短语
  • (?=[«».،_\]\s:)<>؟'!]|$) - 匹配字符串中紧跟 «».،、{{1 的位置的正向前瞻}}、_、空格、]:)<>؟、{{1 }} 或字符串结尾。

在匹配时,'(如果匹配)被附加到从所有空格(带有 !)中去除的 punct