Elasticsearch 用于html 去標(biāo)簽化搜索

Elasticsearch 用于html 去標(biāo)簽化搜索：即在Index的時(shí)候忽略html tag，同時(shí)又存儲(chǔ)了完整的html轩缤，
在使用的時(shí)候可以正常讀出來。

自定義html analyzer


PUT my_index
{
  "settings": {
    // 定義兩種過濾html標(biāo)記后渔肩，自動(dòng)生成的沒有html標(biāo)簽的index
    "analysis": {
      "analyzer": {
        //對(duì)應(yīng)text類型
        "html_text_analyzer": {
          "tokenizer": "standard",
          "char_filter": ["html_char_filter"]
        },
        //對(duì)應(yīng)keyword類型
        "html_keyword_analyzer": {
          "tokenizer": "keyword",
          "filter":["trim"],
          "char_filter": ["html_char_filter"]
        }
      },
      "char_filter": {
        "html_char_filter": {
          "type": "html_strip"
        }
      }
    }
  },
  "mappings": {
    // 測(cè)試時(shí)使用字段子類型逼友，一個(gè)字段建立三種index方便比較
    "properties": {
      "html":{
        "type": "text",
        "fields": {
          "html_text":{
            "search_analyzer": "simple",
            "analyzer":"html_text_analyzer",
            "type":"text"
          },
          "html_keyword":{
            "analyzer":"html_keyword_analyzer",
            "type":"text"
          }
        }
      }
    }
  }
}

// 測(cè)試html_text_analyzer
POST my_index/_analyze
{
  "analyzer": "html_text_analyzer",
  "text": "<p>I&apos;m so <b>happy</b>!</p>"
}
// 返回結(jié)果


// 測(cè)試html_keyword_analyzer
POST my_index/_analyze
{
  "analyzer": "html_keyword_analyzer",
  "text": "<p>I&apos;m so <b>happy</b>!</p>"
}

// 返回結(jié)果  去除html標(biāo)記后正常分解
{
  "tokens" : [
    {
      "token" : "I'm",
      "start_offset" : 3,
      "end_offset" : 11,
      "type" : "<ALPHANUM>",
      "position" : 0
    },
    {
      "token" : "so",
      "start_offset" : 12,
      "end_offset" : 14,
      "type" : "<ALPHANUM>",
      "position" : 1
    },
    {
      "token" : "happy",
      "start_offset" : 18,
      "end_offset" : 27,
      "type" : "<ALPHANUM>",
      "position" : 2
    }
  ]
}


// 錄入數(shù)據(jù) 帶span標(biāo)記
POST my_index/_doc
{
  "html":"<span>I&apos;m so <b>happy</b>!</span>"
}

//返回結(jié)果 去除html標(biāo)記，全文被索引為一個(gè)keyword
{
  "tokens" : [
    {
      "token" : "I'm so happy!",
      "start_offset" : 0,
      "end_offset" : 32,
      "type" : "word",
      "position" : 0
    }
  ]
}


// 查詢index 結(jié)果化借，原始的text類型使用默認(rèn)analyzer潜慎，查詢span，能返回結(jié)果是應(yīng)為span也被索引了
POST my_index/_search
{
  "query": {
    "match": {
      "html": "span"
    }
  }
}

// 查詢使用html_text_analyzer 建立的索引中的span,無返回結(jié)果結(jié)果，說明html標(biāo)記沒有被索引
POST my_index/_search
{
  "query": {
    "match": {
      "html.html_text": "span"
    }
  }
}


// 查詢使用html_text_analyzer 建立的索引中的happy,能返回結(jié)果铐炫，html中text 被正常索引
POST my_index/_search
{
  "query": {
    "match": {
      "html.html_text": "happy"
    }
  }
}

// 查詢使用html_keyword_analyzer 建立的索引中的happy,無返回結(jié)果垒手，因?yàn)檫@里要用keyword的查詢語法
POST my_index/_search
{
  "query": {
    "match": {
      "html.html_keyword": "happy"
    }
  }
}

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市倒信，隨后出現(xiàn)的幾起案子科贬，更是在濱河造成了極大的恐慌，老刑警劉巖鳖悠，帶你破解...
沈念sama閱讀 222,807評(píng)論 6贊 518
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件榜掌，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡乘综，警方通過查閱死者的電腦和手機(jī)憎账，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,284評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來卡辰，“玉大人胞皱，你說我怎么就攤上這事】凑” “怎么了朴恳？”我有些...
開封第一講書人閱讀 169,589評(píng)論 0贊 363
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長允蚣。經(jīng)常有香客問我于颖，道長，這世上最難降的妖魔是什么嚷兔？我笑而不...
開封第一講書人閱讀 60,188評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任森渐，我火速辦了婚禮，結(jié)果婚禮上冒晰，老公的妹妹穿的比我還像新娘同衣。我一直安慰自己，他們只是感情好壶运，可當(dāng)我...
茶點(diǎn)故事閱讀 69,185評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布耐齐。她就那樣靜靜地躺著，像睡著了一般蒋情。火紅的嫁衣襯著肌膚如雪埠况。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,785評(píng)論 1贊 314
城市分裂傳說
那天棵癣，我揣著相機(jī)與錄音辕翰，去河邊找鬼。笑死狈谊，一個(gè)胖子當(dāng)著我的面吹牛喜命，可吹牛的內(nèi)容都是我干的沟沙。我是一名探鬼主播，決...
沈念sama閱讀 41,220評(píng)論 3贊 423
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼壁榕，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼矛紫！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起护桦，我...
開封第一講書人閱讀 40,167評(píng)論 0贊 277
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤含衔，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后二庵，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體贪染，經(jīng)...
沈念sama閱讀 46,698評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,767評(píng)論 3贊 343
?白月光啟示錄
正文我和宋清朗相戀三年催享，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了杭隙。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,912評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡因妙，死狀恐怖痰憎，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情攀涵，我是刑警寧澤铣耘，帶...
沈念sama閱讀 36,572評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站以故，受9級(jí)特大地震影響蜗细，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜怒详，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,254評(píng)論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一炉媒、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧昆烁，春花似錦吊骤、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,746評(píng)論 0贊 25
一樁弒父案白粉，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至鼠渺，卻和暖如春蜗元，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背系冗。一陣腳步聲響...
開封第一講書人閱讀 33,859評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留薪鹦，地道東北人掌敬。一個(gè)月前我還...
沈念sama閱讀 49,359評(píng)論 3贊 379
代替公主和親
正文我出身青樓惯豆，卻偏偏與公主長得像，于是被迫代替她去往敵國和親奔害。傳聞我的和親對(duì)象是個(gè)殘疾皇子楷兽，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,922評(píng)論 2贊 361

Elasticsearch 用于html 去標(biāo)簽化搜索

自定義html analyzer

推薦閱讀更多精彩內(nèi)容