原创 自然語言學習20-Neo4j構建知識圖譜

安裝 bin 目錄:用於存儲 Neo4j 的可執行程序; conf 目錄:用於控制 Neo4j 啓動的配置文件; data 目錄:用於存儲核心數據庫文件; plugins 目錄:用於存儲 Neo4j 的插件。 cmd切換目錄至安裝路徑

原创 自然語言學習12-聊天機器人

自動問答(Question Answering,QA) 自動問答主要研究的內容和關鍵科學問題如下: 問句理解:給定用戶問題,自動問答首先需要理解用戶所提問題。用戶問句的語義理解包含詞法分析、句法分析、語義分析等多項關鍵技術,需要從文本的

原创 12_16下午

遞歸神經網絡-序列,文本 全連接不能考慮語序 遞歸可考慮序列 the(t1) cat(t2) eat the mouse```(tn)時間步   RNN:     梯度消失:參數不能更新 LSTM:RNN的變體 v爲矩陣變換後的輸入

原创 1_19

多行語句 Python 通常是一行寫完一條語句,但如果語句很長,我們可以使用反斜槓(\)來實現多行語句,例如: total = item_one + \ item_two + \ item_three 在

原创 自然語言學習16-知識圖譜

知識圖譜的通用表示方法 本質上,知識圖譜是一種揭示實體之間關係的語義網絡 ,可以對現實世界的事物及其相互關係進行形式化地描述 。現在的知識圖譜己被用來泛指各種大規模的知識庫 。 三元組是知識圖譜的一種通用表示方式,即 G=(E,R,S)G

原创 自然語言學習11-基於情感詞典的文本情感分析

中文情感分析方法簡介 情感傾向可認爲是主體對某一客體主觀存在的內心喜惡,內在評價的一種傾向。它由兩個方面來衡量:一個情感傾向方向,一個是情感傾向度。 目前,情感傾向分析的方法主要分爲兩類:一種是基於情感詞典的方法;一種是基於機器學習的方

原创 自然語言學習17-遷移學習

遷移學習(Transfer Learning)用一句話概況就是把已經訓練好的模型遷移到類似任務中,幫助新模型的訓練。 傳統的神經網絡構建流程 遷移學習 主要分爲兩個步驟。 利用一些大型的公開數據集訓練出一個“通用”的 model 。這

原创 12_16上午

使用 CountVectorizer 對象爲每個詞創建二進制值 vectorizer =CountVectorizer(lowercase=True, analyzer='word', binary=True) ##TODO## : U

原创 自然語言學習10-基於 CNN 的電影推薦

常見的推薦系統主要包含兩個方面的內容,基於用戶的推薦系統(UserCF)和基於物品的推薦系統(ItemCF)。兩者的區別在於,UserCF 給用戶推薦那些和他有共同興趣愛好的用戶喜歡的商品,而 ItemCF 給用戶推薦那些和他之前喜歡的商

原创 自然語言學習02-簡單好用的中文分詞利器 jieba 和 HanLP

jieba 分詞 jieba 安裝 jieba 的分詞算法 主要有以下三種: 基於統計詞典,構造前綴詞典,基於前綴詞典對句子進行切分,得到所有切分可能,根據切分位置,構造一個有向無環圖(DAG); 基於DAG圖,採用動態規劃計算最大概率

原创 自然語言學習08-HMM(隱馬爾可夫模型)和 CRF(條件隨機場)

   HMM(隱馬爾可夫模型)和 CRF(條件隨機場)算法常常被用於分詞、句法分析、命名實體識別、詞性標註等。在命名實體、句法分析等領域 CRF 更勝一籌。 從貝葉斯定義理解生成式模型和判別式模型 生成式模型和判別式模型 生成式模型:估計

原创 吳恩達深度學習課程第一課 — 神經網絡與深度學習1,2

第二週 邏輯迴歸是一個用於二分類(binary classification)的算法。 sigmoid函數 在梯度下降法中,會得到局部最優解,不能得到全局最優解 在邏輯迴歸中,使用的損失函數: 損失函數是在單個訓練樣本中定義的,它

原创 自然語言學習05 plus-HMM模型

假設我手裏有三個不同的骰子。第一個骰子是我們平常見的骰子(稱這個骰子爲D6),6個面,每個面(1,2,3,4,5,6)出現的概率是1/6。第二個骰子是個四面體(稱這個骰子爲D4),每個面(1,2,3,4)出現的概率是1/4。第三個骰子有八

原创 自然語言學習07-基於機器學習的中文短文本聚類

文本聚類是將一個個文檔由原有的自然語言文字信息轉化成數學信息,以高維空間點的形式展現出來,通過計算哪些點距離比較近,從而將那些點聚成一個簇,簇的中心叫做簇心。一個好的聚類要保證簇內點的距離儘量的近,但簇與簇之間的點要儘量的遠。 如下圖,以

原创 自然語言學習11-基於 LSTM 的古詩生成

整個過程分爲以下步驟完成: 語料準備 語料預處理 模型參數配置 構建模型 訓練模型 模型作詩 繪製模型網絡結構圖 第一,語料準備。一共四萬多首古詩,每行一首詩,標題在預處理的時候已經去掉了。 第二,文件預處理。首先,機器並不懂每個中文漢字