锚令牌替换模式到令牌末尾

问题描述

根据docs,这应该是不可能的

正则表达式不能锚定在令牌的开头或结尾

尽管如此,它似乎对我有

GET /_analyze
{
  "tokenizer": "whitespace","filter": [
    {
      "type": "pattern_replace","pattern": "(dog)$","replacement": "hot$1"
    }
  ],"text": "dog dogs"
}

返回

{
  "tokens" : [
    {
      "token" : "hotdog","start_offset" : 0,"end_offset" : 3,"type" : "word","position" : 0
    },{
      "token" : "dogs","start_offset" : 4,"end_offset" : 8,"position" : 1
    }
  ]
}

请注意,该模式锚定在令牌的末尾,并且不会替换“ dog s ”,因为它不是以“ dog”结尾。

所以我的问题是:我是否缺少某些东西或可以安全使用(文档只是错误的)?

解决方法

看起来像是错误的文档,Elasticsearch bug为此,已经查看了弹性代码,并且对令牌的开头或结尾没有特殊的处理。>

请参考用于该令牌过滤器的this ES code,它称为Lucene令牌过滤器,并且在Elastic和Lucene代码级别上均没有特殊处理。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...