reg ex group和sub group

问题描述

| 是否可以使用正则表达式来捕获整个短语以及短语中的每个单词? 因此对于 :
smith jones
返回:
smith,jones,smithjones
此外,由于其他限制(solr PatternTokenizer),我只能使用一个分组。     

解决方法

        看起来,您无需做一些额外的工作就可以做到这一点。使用PatternTokenizerFactory,您只能使用正则表达式的“匹配”部分,因此无法进行替换。 为什么不创建自己的令牌生成器,该令牌生成器使用PatternTokenizer创建的令牌流,然后构建一个串联的字符串,并在最后返回该字符串呢?