问题描述
|
是否可以使用正则表达式来捕获整个短语以及短语中的每个单词?
因此对于 :
smith jones
返回:
smith,jones,smithjones
此外,由于其他限制(solr PatternTokenizer),我只能使用
一个分组。
解决方法
看起来,您无需做一些额外的工作就可以做到这一点。使用PatternTokenizerFactory,您只能使用正则表达式的“匹配”部分,因此无法进行替换。
为什么不创建自己的令牌生成器,该令牌生成器使用PatternTokenizer创建的令牌流,然后构建一个串联的字符串,并在最后返回该字符串呢?