原创 自然語言學習06-基於機器學習的中文短文本分類

整個過程分爲以下幾個步驟: 語料加載 分詞 去停用詞 抽取詞向量特徵 分別進行算法建模和模型訓練 評估、計算 AUC 值 模型對比 基本流程如下圖所示: 1. 首先進行語料加載,在這之前,引入所需要的 Python 依賴包,並將全部語料

原创 安卓第一步

活動的生命週期 活動在其生命週期中有四個狀態: 運行狀態(棧頂位置) 暫停狀態(棧頂對話框並未完全覆蓋,後面會看到此活動,完全存活着,系統不會回收) 停止狀態(不處於棧頂位置,完全不可見,保存相應狀態和成員變量,當其他地方需要內

原创 吳恩達深度學習課程第二課 — 改善深層神經網絡:超參數調試、正則化以及優化1

1.1 訓練,驗證,測試集(Train / Dev / Test sets)  

原创 吳恩達深度學習課程第一課 — 神經網絡與深度學習4

  4.6 搭建神經網絡塊(Building blocks of deep neural networks) 紅色箭頭爲反向傳播     上圖中dA[l]不是相加而是矩陣排開                    

原创 自然語言學習15-基於 CRF 的中文句法依存分析模型

句法分析是自然語言處理中的關鍵技術之一,其基本任務是確定句子的句法結構或者句子中詞彙之間的依存關係。主要包括兩方面的內容,一是確定語言的語法體系,即對語言中合法句子的語法結構給予形式化的定義;另一方面是句法分析技術,即根據給定的語法體系,

原创 自然語言學習14-中文句法依存分析

句法分析是自然語言處理(NLP)中的關鍵技術之一,其基本任務是確定句子的句法結構或者句子中詞彙之間的依存關係。主要包括兩方面的內容:一是確定語言的語法體系,即對語言中合法句子的語法結構給予形式化的定義;另一方面是句法分析技術,即根據給定的

原创 python基礎

    列表[] 元組() 一旦定義不可改變 f=(1,2,3) 字典{} linux 文本 條件語句 首部加入 #coding:utf-8 字符轉換   循環語句 海龜模塊 函數 類   兩個下劃線

原创 TensorFlow lesson 4-NN優化

1.損失函數 自定義損失函數 交叉熵:越大表示兩個概率分佈越遠 爲了讓前向傳播滿足概率分佈,即n分類的n個輸出都在0~1之間,且和爲1,引入softmax函數 上述兩個語句可替換求交叉熵的語句,輸出爲損失函數 2.

原创 自然語言學習09-神經序列模型RNN

語言模型 N-gram 模型 一般自然語言處理的傳統方法是將句子處理爲一個詞袋模型(Bag-of-Words,BoW),而不考慮每個詞的順序,比如用樸素貝葉斯算法進行垃圾郵件識別或者文本分類。 語言模型中的 N-gram 就是一種考慮句子

原创 吳恩達深度學習課程第一課 — 神經網絡與深度學習3

第三週   水平方向上,對應於不同的訓練樣本;豎直方向上,對應不同的輸入特徵,而這就是神經網絡輸入層中各個節點。 激活函數   Relu函數   兩者的優點是: 第一,在z的區間變動很大的情況下,激活函數的導數或者激活函數

原创 TensorFlow lesson 3

張量的概念 計算圖只搭建網絡,不計算   一行一列的張量 會話(session):執行計算圖中的節點運算(得到運算結果) 報錯 新版TensorFlow2.0改爲   前向傳播 隨機種子如果去掉,每次生成的隨機數將會是一致

原创 自然語言學習13-基於 CRF 的中文命名實體識別模型實現

常見的命名實體識別方法 命名實體是命名實體識別的研究主體,一般包括三大類(實體類、時間類和數字類)和七小類(人名、地名、機構名、時間、日期、貨幣和百分比)命名實體。評判一個命名實體是否被正確識別包括兩個方面:實體的邊界是否正確和實體的類型

原创 TensorFlow lesson 5-全連接網絡基礎

1.MINIST數據集                                                 zzz

原创 自然語言學習03-關鍵字提取 筆記

前言 關鍵詞提取就是從文本里面把跟這篇文章意義最相關的一些詞語抽取出來。 關鍵詞抽取從方法來說主要有兩種: 第一種是關鍵詞分配:就是給定一個已有的關鍵詞庫,對於新來的文檔從該詞庫裏面匹配幾個詞語作爲這篇文檔的關鍵詞。 第二種是關鍵詞

原创 自然語言學習04-文本可視化 筆記

文本可視化的流程 文本可視化依賴於自然語言處理,因此詞袋模型、命名實體識別、關鍵詞抽取、主題分析、情感分析等是較常用的文本分析技術。文本分析的過程主要包括特徵提取,通過分詞、抽取、歸一化等操作提取出文本詞彙級的內容,利用特徵構建向量空間模