原创 NLP基礎:HMM

文章目錄問題場景-扔不均衡硬幣Q1 Inference ProblemQ2 估計參數的過程Q3:預測序列應用場景:詞性標註Pos問題一:給定模型參數,找出最適合的z問題二:Inference ProblemForward Algo

原创 探索循環神經網絡在構建語言模型中的演化歷程

文章目錄任務說明數據集數據集說明數據集讀取建立字符索引時序數據採樣隨機採樣:相鄰採樣評價指標模型一:循環神經網絡RNN模型二:門控循環單元GRU模型三:長短期記憶LSTM模型四:簡單循環單元SRU 任務說明 通過用周杰倫的歌詞數據

原创 NLP基礎:枚舉法和維特比搭建分詞

文章目錄一. 任務介紹任務描述數據集二. 原理介紹最大匹配考慮語義枚舉法LeetCode 139 單詞拆分ⅠLeetCode 140 單詞拆分Ⅱ維特比三. 實現1. 基於枚舉方法搭建中文分詞工具2. 基於維特比算法來優化 一. 任

原创 數據分析常用處理方法總結

一. 查看每列的數據結構 def print_col_info(dataset): '''print info of every column in dataset: detailed info includes:

原创 Kaggle入門--泰坦尼克號存活率預測(完整流程)

1. 通過熱力圖的方式來查看缺失的數據 sns.heatmap(train.isnull(), yticklabels=False, cbar=False, cmap='viridis') tip:對於有些數據集中可能不是顯式的

原创 pyltp 安裝過程總結

在安裝pyltp的過程中踩了不少坑,這裏對坑過程進行總結下,避免大家踩坑: 第一步 :安裝pyltp 這裏看別的blog給了兩個方法:一個是直接pip,另一個是通過git clone pyltp的github,再通過python

原创 NLP工具包安裝配置(附一鍵下載requirements.txt)

NLP工具包安裝配置pip鏡像地址numpyNLTKGensimTensorflowjiebaStanford NLPHanlp簡介JVM環境安裝Hanlp安裝常出現錯誤情況 一鍵安裝地址 pip install -r requi

原创 Pythonic騷操作知識點總結(持續更新)

1.urlencode urlencode的參數是詞典,它可以將key-value這樣的鍵值對轉換成我們想要的格式。python2中:urlencode在urllib.urlencode python3中:urlencode在ur

原创 NLP基礎-詞性標註應用去除停用詞

詞性標註-去除停用詞 詞性標註就是對分詞後的詞性進行標識,通常分詞後其詞性也就直接輸出了,而詞性標註的應用就是可以通過詞性來進行過濾(去除助詞停用詞等),從而得到更有效的文本。 方法是首先自定義字典–確定不想要的詞性,第二步是把文

原创 NLP基礎-準確分詞(使用工具分詞)

關於NLP相關包安裝配置,可以參考: NLP工具包安裝配置 關於分詞的原理可以參考: 自然語言處理NLP-隱馬爾科夫) 1. 加載字典來保證詞可以分準 對一些專業的名詞來說,使用原有的詞庫可能無法很好的將詞分開,比如在對醫療文本

原创 Python進階筆記(五)迭代器和生成器

5.1 迭代協議 迭代協議: 迭代器是訪問集合類元素的一種方式,一般是用來遍歷數據; for循環也可以遍歷數據,能完成for循環是因爲背後的迭代器在產生作用; 迭代器和以下標的訪問方式不一樣,迭代器是不能返回的; 迭代器只能

原创 深刻理解Python的類

Python的類類的定義函數與方法的區別類與對象構造函數區分模塊變量與類中的變量類變量和實例變量類與對象的變量查找順序self與實例方法在實例方法中訪問實例變量與類變量變量間的關係是怎樣的在實例方法中是否能訪問到類變量?前置知識回

原创 Flask編程總結-魚書項目

flask 高級編程一. flask基本原理視圖函數唯一url原則唯一url原則的本質-重定向開啓flask服務器自動重啓路由註冊app.run的相關參數flask配置文件if__name__ == '__main__'的含義:響

原创 DW集訓營數據庫Mysql梳理[五]

DW集訓營數據庫Mysql梳理[五]1 任務2 數據導入導出2.1將Excel文件導入MySQL表2.2 MySQL表導出表到Excel文件3 作業3.1 各部門工資最高的員工3.2 換座位3.3 分數排名參考 1 任務 任務五

原创 DW集訓營數據庫Mysql梳理[六]

DW集訓營數據庫Mysql梳理[六]1 行程和用戶(難度:困難)2 各部門前3高工資的員工(難度:中等)3 分數排名(難度:中等) 1 行程和用戶(難度:困難) 項目十:行程和用戶(難度:困難) Trips 表中存所有出租車的行程