原创 NLP(04)_英文文本處理與spaCy

英文文本處理與spaCy spaCy是Python和Cython中的高級自然語言處理庫,它建立在最新的研究基礎之上,從一開始就設計用於實際產品。spaCy 帶有預先訓練的統計模型和單詞向量,目前支持 20 多種語言的標記。它具有世

原创 NLP(10)_預訓練在圖像領域的應用

1. 預訓練在圖像領域的應用 參考文章:《從Word Embedding到Bert模型—自然語言處理中的預訓練技術發展史》 自從深度學習火起來後,預訓練過程就是做圖像或者視頻領域的一種比較常規的做法,有比較長的歷史了,而且這種做法

原创 NLP(09)_文本表示

第3門:文本表示 第1章:文本詞與句的表示 1.文本表示概述 文本表示,簡單的說就是不將文本視爲字符串,而視爲在數學上處理起來更爲方便的向量。而怎麼把字符串變爲向量,就是文本表示的核心問題。 1.1 爲什麼要進行文本表示 根本原因是

原创 NLP(08)_RNN神經網絡語言模型

從傳統語言模型到神經網絡語言模型 我們將學習到如何使用KenLM工具構建語言模型,並使用它完成一個典型的“智能糾錯”文本任務。 參考資料: Andrej Karpathy的RNN博客 Language Model: A Survey

原创 NLP(07)_統計語言模型

統計語言模型 以下內容摘自和修改自吳軍《數學之美》 自然語言從它產生開始,逐漸演變成一種上下文相關的信息表達和傳遞方式。因此讓計算機處理自然語言,一個基本問題就是爲自然語言這種上下文相關的特性建立數學模型,這個數學模型就是在自然語

原创 NLP(06)_語言模型與應用

自然語言(Natural Language)其實就是人類語言,自然語言處理(NLP)就是對人類語言的處理,當然主要是利用計算機。自然語言處理是關於計算機科學和語言學的交叉學科,常見的研究任務包括: 分詞(Word Segmentat

原创 NLP(05)_中文文本基本任務與處理

中文文本基本任務與處理 本文所用資料鏈接: https://pan.baidu.com/s/1KC1ya38fml1mlXYGBF0mIw 提取碼: r76u 1.分詞 對於中文和日文這樣的特殊亞洲語系文本而言,字和字之間是緊密相

原创 NLP(03)_英文文本處理與NLTK

英文文本處理與NLTK NLTK,全稱Natural Language Toolkit,自然語言處理工具包,是NLP研究領域常用的一個Python庫,由賓夕法尼亞大學的Steven Bird和Edward Loper在Python的基

原创 NLP(02)_Python正則表達式

Python正則表達式 正則表達式是處理字符串的強大工具,擁有獨特的語法和獨立的處理引擎。 我們在大文本中匹配字符串時,有些情況用str自帶的函數(比如index, find, in)可能可以完成,有些情況會稍稍複雜一些(比如說找出所

原创 NLP(01)_python基本文本處理操作

NLP處理的對象是文本字符串內容,大家需要熟悉一些基本的文本字符串操作,這裏以python爲例,幫大家複習以下的中英文字符串操作: 替換 截取 複製 連接 分割 排序 比較 查找 包含 大小寫轉換 1. 清理與替換 en_str

原创 268. 缺失數字

給定一個包含 0, 1, 2, ..., n 中 n 個數的序列,找出 0 .. n 中沒有出現在序列中的那個數。 示例 1: 輸入: [3,0,1] 輸出: 2 示例 2: 輸入: [9,6,4,2,3,5,7,0,1] 輸出:

原创 點到平面距離

原创 統計學習方法-感知機學習的對偶形式

《統計學習方法》書中2.3.3關於感知機算法的對偶形式講的不是很清楚, 從知乎上找到這一幅圖,一目瞭然,分享給大家。   

原创 235. 二叉搜索樹的最近公共祖先

給定一個二叉搜索樹, 找到該樹中兩個指定節點的最近公共祖先。 百度百科中最近公共祖先的定義爲:“對於有根樹 T 的兩個結點 p、q,最近公共祖先表示爲一個結點 x,滿足 x 是 p、q 的祖先且 x 的深度儘可能大(一個節點也可以是它自己

原创 257. 二叉樹的所有路徑

  給定一個二叉樹,返回所有從根節點到葉子節點的路徑。 說明: 葉子節點是指沒有子節點的節點。 示例: 輸入: 1 / \ 2 3 \ 5 輸出: ["1->2->5", "1->3"] 解釋: 所有根節