原创 NLP————VocabularyProcessor進行詞表創建和原數據填充

在進行NLP相關編碼時,將文本進行序列化編碼是一個必要的環節(word->id),之前自己一直是自己手寫代碼構造詞表並給句子進行填充,後來網上看到一個神仙函數兩句語句就能完成構造詞表vocab和句子填充,就是我們今天的主角Vocabula

原创 NLP————在神經網絡中CRF的使用

最近在做bi_lstm_crf時使用了CRF的一些庫函數,是tensorflow官方庫提供的。 在我的項目中有兩處用到了CRF: 1.在雙向LSTM進行輸出之後計算loss時,要使用到 crf_log_likelihood 函數。這個函數

原创 深度強化學習(DRL)

DRL形成背景 深度強化學習(Deep Reinforcement Learning)顧名思義,是深度學習與強化學習的結合,因此深度強化學習彌補了DL和RL的不足之處。 深度學習最近火熱,大家也都有所瞭解,就是通過多層網絡和非線性變換,去

原创 NLP—————word_embedding

Embedding這個詞接觸過深度學習的同學都不陌生,它在keras官方文檔中的解釋爲:嵌入層將正整數(下標)轉換爲具有固定大小的向量。(這個解釋太模糊了啊!!!) 實際上,embedding這個詞來源於wordEmbedding。使用嵌

原创 機器學習————k近鄰學習

介紹 k近鄰(k-Nearest Neighbor 簡稱KNN)學習是一種常用的監督學習算法,給定一個測試樣本,基於某種距離度量來找出訓練集的所有樣本中與該樣本最爲靠近的k個樣本,然後根據這k個鄰居的信息進行預測。 什麼時候用到KNN?

原创 使用matplotlib繪製熱圖(heatmap)

python常用的繪圖庫就是matplotlib,今天在給公司繪圖時,偶然間發現matplotlib可以繪製熱圖,並且十分簡潔,拿出來跟大家分享一下。(由於涉及到公司數據問題,這裏採用隨機數生成數據進行實驗) import random

原创 Mac os 搭建FTP服務器

由於mac擁有自帶的FTP工具,因此其實不需要藉助其他工具,搭建更加方便。 開啓FTP服務 macos默認的FTP服務是關閉狀態的,因此需要進行激活一下,打開終端,指令如下: sudo -s launchctl load -w /Sys

原创 機器學習————決策樹(二)

這篇文章介紹CART算法。分類與迴歸樹(classification and regression tree,CART)模型是應用廣泛的決策樹的學習方法,CART作爲決策樹的一種放啊放同樣由特徵選擇、樹的生成和剪枝構成,既可以用於分類問題

原创 Mac OS:GraphViz's executables not found (python 3 and pydotplus)

對於決策樹結果可視化的問題,比較流行的方法是調用pydot/pydotplus搭配graphviz進行作圖。 今天在Mac os上運行代碼時出現瞭如下錯誤:GraphViz's executables not found ,顯而易見意思是

原创 機器學習————決策樹(一)

決策樹是一種迴歸和分類的重要手段,在機器學習中具有重要的比重。本文結合了周志華老師的《機器學習》和李航老師的《統計學習方法》兩書中的決策樹部分進行了總結。 決策樹的基本步驟包括:選擇適當的算法根據訓練樣本構建生成決策樹、根據驗證集樣本適當

原创 macOS下載python3與自帶python2共存問題

macOS上自帶了python,不過版本是python2,很多朋友說反正以後也不更新維護python2了,乾脆換掉。天真了不是,mac上自帶的python2,修改了自帶的python2會導致系統上某些用python2寫的系統文件失效,會特

原创 深度學習——對於反向傳播的理解(舉例驗證)

BackPropagation是BP神經網絡的基礎算法,不過相信有很多人對於各種資料上教程書籍上看到的反向傳播的推導看的雲裏霧裏,剛開始看花書的時候也是這樣,不過之後又帶着迷惑查找看了許多講解,勉強能夠看懂了,其中用具體數值代替鏈式法則公

原创 聚類算法——k-means算法

數據挖掘數據挖掘(Data Mining,DM)是從大量數據中提取信息以查看隱藏的知識並便於將其用於實時應用程序。 DM有多種用於數據分析的算法。用於分析的一些主要DM技術是聚類,關聯,分類等。聚集是用於探索性數據分析的有效技術,並已在各

原创 主成分分析(PCA)和獨立成分分析(ICA)

最近在學習DL花書時,看到了線性因子模型部分,對其中的PCA和ICA的理解有些模糊,於是到網上求助並翻了些文獻資料,總結如下(這裏不討論其推導過程和理論證明): 首先分析一下PCA和ICA之間的共性: 無論是PCA還是ICA,都不需要對

原创 聚類算法——k-medoids算法

引言上一篇文章我們瞭解了k-means算法,在文章末尾指出k-means算法對於異常值十分敏感,因爲具有極大值的對象可能會產生嚴重扭曲的數據分佈。因此我們可以使用k-medoids算法,它是集羣中位於最中心的對象,而不是將集羣中的平均值作