Analysis包中的源碼詳解

原創

2020-02-21 07:46

Analyzer.java 上文已經講過。

CharTokenizer.java 此類爲簡單一個抽象類，用來對基於字符的進行簡單分詞（tokenizer）

LetterTokenizer.java兩個非字符之間的字符串定義爲token（舉例來說英文單詞由空白隔開，那個兩個空白之間的字符串即被定義爲一個token。備註：對於絕大多數歐洲語言來說，這個類工作效能很好。當時對於不用空白符分割的亞洲語言,效能極差（譬如中日韓）。）

LowerCaseFilter.java is-a TokenFilter用於將字母小寫化

LowerCaseTokenizer is-a Tokenizer功能上等價於LetterTokenizer＋LowerCaseFilter

PerFieldAnalyzerWrapper是一個Analyzer，因爲繼承自Analyzer當不同的域（Field）需要不同的語言分析器（Analyzer）時，這個Analyzer就派上了用場。使用成員函數addAnalyzer可以增加一個非缺省的基於某個Field的analyzer。很少使用。

PorterStemFilter.java使用詞幹抽取算法對每一個token流進行詞幹抽取。

PorterStemmer.java 有名的P-stemming算法

SimpleAnalyzer.java

StopAnalyzer.java 具有過濾停用詞的功能

StopFilter.java StopFilter爲一個Filter，主要用於從token流中去除StopWords

發佈了34 篇原創文章 · 獲贊 3 · 訪問量 11萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

生成式推薦系統與京東聯盟廣告-綜述與應用

大型語言模型（LLM）正在深刻地影響自然語言處理（NLP）領域，其強大的處理各種任務的能力也爲其他領域的從業者帶來了新的探索路徑。推薦系統（RS）作爲解決信息過載的有效手段，已經緊密融入我們的日常生活，如何用LLM有效重塑RS是一個有前

2024-06-13 23:54:45

電商風控指南：“僅退款”成部分商家夢魘，如何有效防控非法牟利

“僅退款”服務已成爲各大電商平臺的“標配”。然而，以“薅羊毛”的方式謀取不當利益，給商家造成了經濟和聲譽上的雙重損失，引發了廣泛關注和爭議。 2024年1月，中山市第二人民法院審理了一起電商“僅退款”案件，引發了廣泛關注。該案中，買家李某在

2024-06-05 00:14:42

Prompt Tuning：大模型微調實戰

隨着深度學習技術的不斷髮展，大模型在各種任務中取得了顯著的成果。然而，大模型的訓練需要大量的數據和算力，導致在實際應用中受到限制。爲了解決這個問題，研究者們提出了微調的方法，即使用預訓練模型在少量數據上進行訓練，使其適應特定的任務。在Pr

2024-06-03 12:14:42

什麼是Token？爲什麼大模型要計算Token數

本文分享自華爲雲社區《【技術分享】什麼是Token？爲什麼GPT基於Token定價》，作者：開天aPaaS小助手Tracy。在使用LLM大模型時，我們經常會遇到一個關鍵詞，叫：Token。比如：最新版 GPT-4 Turbo 模型最高

2024-05-27 10:58:40

一文深度剖析 ColBERT

近年來，向量搜索領域經歷了爆炸性增長，尤其是在大型語言模型（LLMs）問世後。學術界開始重點關注如何通過擴展訓練數據、採用先進的訓練方法和新的架構等方法來增強 embedding 向量模型。在之前的文章中，我們已經深入探討了各種類型的 e

2024-05-24 21:25:22

skywalking-client-js 集成

前端： import ClientMonitor from 'skywalking-client-js'; ClientMonitor.setPerformance({ collector: 'http://127.0.0.

2024-05-13 12:57:23

kibana 裏面怎麼通過搜索框，搜索規則-通配符查詢

1.比如這是一個完整的token：getstorelistbyxy:channelcodemini_program 我想通過搜索getstorelistbyxy搜索到這個token該怎麼寫通配符查詢-前綴匹配加* getstorelist

2024-05-07 11:24:49

分享一份物聯網SAAS平臺架構設計

一、架構圖**** 二、Nginx**** 用於做服務的反向代理。三、網關**** PaaS平臺所有服務統一入口，包含token鑑權功能。四、開放平臺**** 對第三方平臺開放的服務入口。五、MQTT**** MQTT用於設備消息通

2024-04-30 23:42:19

教你構建一個優秀的SD Prompt

2. 構建一個優秀的Prompt 在使用Stable Diffusion AI時，構建一個有效的提示（Prompt）是至關重要的第一步。這個過程涉及到創造性的嘗試和對AI行爲的理解。這裏我會對如何構建一個好的Prompt進行一個總結。什麼

2024-04-10 21:30:28

視頻創作者必備應用！三步幫你解決前置內容條件，打造專屬大片！

你還沒嘗試過 AI 視頻生成？AI 技術逐漸浸透我們的生活，太多的事物變得有了捷徑可走。AI 視頻生成爲創作者們提供更加便利快捷的輸出形式，更優質更契合的生產內容。嘗試 AI 視頻生成系列應用，迎接 AI 宇宙！生成劇本分鏡視頻創作，

2024-04-03 23:39:47

Higress 基於自定義插件訪問 Redis

作者：鈺誠簡介基於 wasm 機制，Higress 提供了優秀的可擴展性，用戶可以基於 Go/C++/Rust 編寫 wasm 插件，自定義請求處理邏輯，滿足用戶的個性化需求，目前插件已經支持 redis 調用，使得用戶能夠編寫有狀態的

2024-04-01 21:12:22

（小實驗）理解編譯原理：一個四則運算的解釋器

在前面的課程中，我在 JavaScript 和 CSS 的部分，多次提到了編譯原理相關的知識。這一部分的知識，如果我們從編譯原理“龍書”等正規的資料中學習，就會耗費掉不少的時間，所以我在這裏設計了一個小實驗，幫助你快速理解編譯原理相關的知識

2024-03-25 10:20:45

skywalking-client-js 安全加簽

skywalking-client-js會發起2個請求到服務端這兩個是沒有加簽的，拿到curl會發請求。 /skywalking/v3/segments skywalking/browser/perfData 官方的提供的是一個固定to

2024-03-21 00:23:19

「飛槳星河社區創作者激勵計劃」全新上線！豐富權益，等你領取～

爲了助力更多的創作者實現在飛槳星河社區的成長，同時鼓勵創作者們積極投入，記錄創作者們的高光時刻，重磅推出「創作者成長體系」，同時推出「每週精選 &月度榜單」活動，期待你一同加入精彩紛呈的 AI 學習與創作之旅，與社區千萬開發者一起共建、共創

2024-03-13 12:55:33

PolarDB-X 的 XPlan 索引選擇

前言對於數據庫來說，正確的選擇索引是基本的要求，選錯索引輕則導致查詢緩慢，重則導致數據庫整體不可用。PolarDB-X存在多種不同的索引，局部索引、全局索引、列存索引、歸檔表索引。局部索引就是單機數據庫上常用的索引，目的是避免全表掃描

2024-03-28 01:05:58

24小時熱門文章

最新文章

最新評論文章