台部落Pei

英文文本處理與spaCy spaCy是Python和Cython中的高級自然語言處理庫，它建立在最新的研究基礎之上，從一開始就設計用於實際產品。spaCy 帶有預先訓練的統計模型和單詞向量，目前支持 20 多種語言的標記。它具有世

2020-06-21 07:16:19

1. 預訓練在圖像領域的應用參考文章：《從Word Embedding到Bert模型—自然語言處理中的預訓練技術發展史》自從深度學習火起來後，預訓練過程就是做圖像或者視頻領域的一種比較常規的做法，有比較長的歷史了，而且這種做法

2019-05-08 09:02:28

第3門：文本表示第1章：文本詞與句的表示 1.文本表示概述文本表示，簡單的說就是不將文本視爲字符串，而視爲在數學上處理起來更爲方便的向量。而怎麼把字符串變爲向量，就是文本表示的核心問題。 1.1 爲什麼要進行文本表示根本原因是

2019-05-01 15:06:14

從傳統語言模型到神經網絡語言模型我們將學習到如何使用KenLM工具構建語言模型，並使用它完成一個典型的“智能糾錯”文本任務。參考資料: Andrej Karpathy的RNN博客 Language Model: A Survey

2019-04-29 13:43:59

統計語言模型以下內容摘自和修改自吳軍《數學之美》自然語言從它產生開始，逐漸演變成一種上下文相關的信息表達和傳遞方式。因此讓計算機處理自然語言，一個基本問題就是爲自然語言這種上下文相關的特性建立數學模型，這個數學模型就是在自然語

2019-04-25 10:48:09

自然語言（Natural Language）其實就是人類語言，自然語言處理（NLP）就是對人類語言的處理，當然主要是利用計算機。自然語言處理是關於計算機科學和語言學的交叉學科，常見的研究任務包括：分詞（Word Segmentat

2019-04-24 07:40:09

中文文本基本任務與處理本文所用資料鏈接: https://pan.baidu.com/s/1KC1ya38fml1mlXYGBF0mIw 提取碼: r76u 1.分詞對於中文和日文這樣的特殊亞洲語系文本而言，字和字之間是緊密相

2019-04-24 07:40:09

英文文本處理與NLTK NLTK，全稱Natural Language Toolkit，自然語言處理工具包，是NLP研究領域常用的一個Python庫，由賓夕法尼亞大學的Steven Bird和Edward Loper在Python的基

2019-04-19 02:55:51

Python正則表達式正則表達式是處理字符串的強大工具，擁有獨特的語法和獨立的處理引擎。我們在大文本中匹配字符串時，有些情況用str自帶的函數(比如index, find, in)可能可以完成，有些情況會稍稍複雜一些(比如說找出所

2019-04-18 02:42:34

NLP處理的對象是文本字符串內容，大家需要熟悉一些基本的文本字符串操作，這裏以python爲例，幫大家複習以下的中英文字符串操作：替換截取複製連接分割排序比較查找包含大小寫轉換 1. 清理與替換 en_str

2019-04-18 02:42:34

給定一個包含 0, 1, 2, ..., n 中 n 個數的序列，找出 0 .. n 中沒有出現在序列中的那個數。示例 1: 輸入: [3,0,1] 輸出: 2 示例 2: 輸入: [9,6,4,2,3,5,7,0,1] 輸出:

2019-04-11 02:45:08

2019-04-11 02:45:08

《統計學習方法》書中2.3.3關於感知機算法的對偶形式講的不是很清楚，從知乎上找到這一幅圖，一目瞭然，分享給大家。

2019-04-11 02:45:08

給定一個二叉搜索樹, 找到該樹中兩個指定節點的最近公共祖先。百度百科中最近公共祖先的定義爲：“對於有根樹 T 的兩個結點 p、q，最近公共祖先表示爲一個結點 x，滿足 x 是 p、q 的祖先且 x 的深度儘可能大（一個節點也可以是它自己

2019-04-11 02:45:08

給定一個二叉樹，返回所有從根節點到葉子節點的路徑。說明: 葉子節點是指沒有子節點的節點。示例: 輸入: 1 / \ 2 3 \ 5 輸出: ["1->2->5", "1->3"] 解釋: 所有根節

2019-04-11 02:45:08