elasticsearch 分詞

原創

2019-08-01 15:01

analysis

分析是將文本 text 轉化爲 token 或 term 的過程。token 或 term 隨後被添加至倒排索引（inverted index）用於檢索。分析（analysis）過程是由分詞器（analyzer）來完成的，分詞器包括內置（built-in）分詞器和自定義（cutsom）分詞器。
分析（analysis）可以在以下兩種情況下發生：

index time
search time

analyzer (分詞器)

一個分詞器由以下三部分組成，內置分詞器主要是爲了適應特定語言和文本類型，打包了不同組合的組件，組成了若干種預置分詞器。以下組件還能單獨暴露，自由組合成自定義分詞器。

character filters
- 以字符流的形式接收原始文本，增加、刪除或修改字符，例如：剝離html標籤，轉換 (٠‎١٢٣٤٥٦٧٨‎٩‎) 爲阿拉伯數字 (0123456789) 等。
- 一個分詞器可以包含0到多個character filters
tokenizers

以字符流的形式接收文本，將它拆分成單個的 token (英文單詞、中文單字或詞語)，輸出 token stream (分詞流)。
tokenizer 還負責記錄每個分詞的位置順序，每個分詞的首末字母的偏移量（offsets）
一個分詞器有且僅有一個 tokenizer

token filters

以 token stream (分詞流)的形式接收文本，增加、刪除或修改分詞，例如：單詞大寫轉爲小寫，去除英文停用詞 the，同義詞 synonym 替換等操作
token filter 不修改分詞的位置（position）和字符偏移量（character offsets）
一個分詞器可以包含0到多個token filters

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

詳解數倉的向量化執行引擎

本文分享自華爲雲社區《GaussDB(DWS)向量化執行引擎詳解》，作者： yd_212508532。前言適用版本：【基線功能】傳統的行執行引擎大多采用一次一元組的執行模式，這樣在執行過程中CPU大部分時間並沒有用來處理數據，更

2024-04-25 10:33:17

短視頻文案提取原來如此簡單

結婚十年遊西湖過春風十里，盡薺麥青青。春天總是讓人舒坦，而今年的三月，也因爲與媳婦結婚十年，顯得格外不同。兩人奢侈的請了一天假，瞞着孩子，重遊西湖，去尋找13年前的冰棍店（給當時還是同事的她買了最貴的一個雪糕-8元），去尋

2024-04-22 23:33:29

從一次 RPC 請求，探索 MOSN 的工作流程

SOFA 六週年，歡迎來玩本週六 4.20 上海螞蟻集團 S 空間掃碼免費報名活動，來與 MOSN 社區負責人線下交流～ MOSN 社區歡迎您的加入！ MOSN 官網：https://mosn.io/ MOSN Github：http

2024-04-18 22:46:41

JSON Stream

1. 需求背景在日常開發中經常會遇到大對象或者大文件處理, 比如在nodejs開發中, 一個算法包可能範圍了一個長度爲好幾萬長度的一個對象, 這個對象使用Restful API不好傳遞, 肯定會把這個處理結果保存爲文件, 然後通過通過文件

2024-04-12 23:17:15

dubbo3.0 服務導入導出原理

不管是服務導出還是服務引入，都發生在應用啓動過程中，比如：在啓動類上加上 @EnableDubbo 時，該註解上有一個 @DubboComponentScan 註解，@DubboComponentScan 註解 Import 了一個 D

2024-04-09 23:17:11

Ascend C 自定義算子 Kernel Launch調用入門

本文分享自華爲雲社區《Ascend C 自定義算子 Kernel Launch調用入門》，作者： jackwangcumt。 1 Kernel Launch概述根據官方說明文檔的介紹，Ascend C對外開放核函數的基礎調用（Kerne

2024-04-09 10:32:17

數據結構筆記淺記（十三）哈希表

「哈希表 hash table」，又稱「散列表」，它通過建立鍵 key 與值 value 之間的映射，實現高效的元素查詢。具體而言，我們向哈希表中輸入一個鍵 key ，則可以在 𝑂(1) 時間內獲取對應的值 value 。從本質上看，哈

2024-04-24 23:39:16

自學編程兩個月，現在我月入 4 萬元

這個外國小哥叫 Nico，他一開始是個編程小白，後來把自己關在房間裏花了兩個月時間學會了編程，如今正在開發一款名爲 Talknotes 的應用，可以將語音備忘錄轉化爲結構化的內容，月收入 5000 美元。 Nico 從高中畢業就開始創業，

2024-04-24 21:14:29

RAG 修煉手冊｜如何評估 RAG 應用？

如果你是一名用戶，擁有兩個不同的 RAG 應用，如何評判哪個更好？對於開發者而言，如何定量迭代提升你的 RAG 應用的性能？顯然，無論對於用戶還是開發者而言，準確評估 RAG 應用的性能都十分重要。然而，簡單的幾個例子對比並不能全面衡量

2024-04-23 21:20:22

手動給docusaurus添加一個搜索

新版博客用docusaurus重構已經有些日子了，根據docusaurus的文檔上也申請了Algolia,想一勞永逸的解決博客的搜索問題。但是流水有意，落花無情。 algolia總是不給我回復，我只能對着algolia的申請頁面仰天長嘆。

2024-04-19 21:30:54

體驗AI驅動的軟件開發 | 普元低代碼社區版安裝流程

EOS_LOWCODE是一款由普元軟件主導的低代碼產品，緊扣模型驅動開發的理念設計，旨在讓更多用戶快速私有化的構建專業系統。平臺採用人工智能技術和模型驅動技術，可以在顯著提升複雜應用開發效率的同時降低開發成本；採用快速渲染技術，性能相

2024-04-17 23:44:17

給picgo上傳的圖片加個水印

之前給大家介紹了picgo和免費的圖牀神器。我們本可以開開心心的進行markdown寫作了。但是總是會有那麼一些爬蟲網站過來爬你的文章，還把你的文章標明是他們的原著。咋辦呢？這裏有一個好的辦法就是把markdown中上傳的圖片加上自己的水

2024-04-16 21:30:57

通俗易懂關於Paxos的直觀解釋

一、Paxos是什麼在分佈式系統中保證多副本數據強一致性算法。沒有paxos的一堆機器, 叫做分佈式有paxos協同的一堆機器, 叫分佈式系統這個世界上只有一種一致性算法，那就是Paxos … - Google Chubby的作

2024-04-10 23:16:48

如何解決vue中的組件樣式衝突

1：組件樣式衝突問題默認情況下，寫在.vue組件中的樣式會全局生效，因此很容易造成組件之間的樣式衝突問題。 2：導致組件之間樣式衝突的根本原因是：單頁面應用程序中，所有組件的dom結構，都是基於唯一的index.html頁面進行呈現

2024-04-09 12:52:03

一站式解讀多模態——Transformer、Embedding、主流模型與通用任務實戰（下）

本文章由飛槳星河社區開發者高宏偉貢獻。高宏偉，飛槳開發者技術專家（PPDE），飛槳領航團團長，長期在自媒體領域分享 AI 技術知識，博客粉絲 9w+，飛槳星河社區 ID 爲 GoAI 。分享分爲上下兩期，本期分享從主流多模態模型和多模態實戰

2024-04-09 11:40:25

24小時熱門文章

最新文章

elasticsearch 分詞

最新評論文章