如何识别混有汉字的整个英语单词？

问题描述

| 我正在使用单词边界来匹配整个英语单词。如果我要匹配的字符串是纯英文的，则效果很好。例如：SELECT \'a word a\' REGEXP \'[[:<:]]word[[:>:]]\' -> 1 但是如果该字符串包含任何中文文字，例如：SELECT \'a word哈哈抓不到我吧 a\' REGEXP \'[[:<:]]word[[:>:]]\' -> 0 如何使我的查询更智能，以便将英语单词隐藏起来与中文单词联系起来？我正在考虑REGEXP \'[[:<:]]word[[:>:]] | [Chinese]word[[:>:]] | [[:<:]]word[Chinese] | [Chinese]word[Chinese]\'，但我不知道如何在mysql正则表达式中使用Unicode点...

解决方法

您可以使用转义的\'u \'和unicode十六进制（例如\\u0041是\'A \'）对大多数语言的unicode字符进行正则表达式。然后，您可以匹配unicode范围。这是所有大写的基本拉丁字母，即A-Z：

[\\u0041-\\u005A]

好资源还要始终仔细检查您的编码。匹配包含空格的“ 5”的示例：

.*[\\u0041-\\u0054 \\u0061-\\u007a \\u0020].*

在ascii中，这将是：

.*[A-Za-z ].*

单词整个汉字英语识别识别

如何识别混有汉字的整个英语单词？

问题描述

解决方法

相关问答