原创 機器學習-分類

寫在前面 邏輯迴歸涉及到的知識點主要有: sigmoid函數、 如何用梯度下降法求解損失函數最小時的參數、 二元分類如何解決多元分類(1-rest)、 加入正則項防止過擬合,減少了特徵的權重 、 python實現sigmoid

原创 data-understan

這篇文章是做數據處理時輸出的數據 第一列:詞(包括n-gram); 第二列:DF,第三列:全部文章中的 total TF; 第四列:total TF/全部文章不去重的總字數,第五列:第四列/DF; 第六列:total TF/該詞出

原创 HMM模型和Viterbi算法

https://www.cnblogs.com/Denise-hzf/p/6612212.html 隱含馬爾可夫模型(Hidden Markov Model) 1.馬爾可夫假設。隨機過程中各個狀態的概率分佈,只與它的前一個狀態有關。

原创 分詞

https://blog.csdn.net/haishu_zheng/article/details/80430106 jieba分詞的算法介紹 (1)Tree樹,有向無環圖(DAG) (2)動態規劃,最大概率路徑 (3)HMM模型,

原创 使用 Hyperopt 進行參數調優

https://www.jianshu.com/p/35eed1567463 網格搜索,隨機搜索,貝葉斯優化 通常機器學習工程師或數據科學家將爲少數模型(如決策樹,支持向量機和 K 近鄰)執行某種形式(網格搜索或隨機搜索)的手動調參

原创 在嵌套字典裏添加字典

# 從 a_dict 變成 a a_dict = {'key': {'inner_key': 'va'}, 'key2': {'inner_key2': 'va2'}} a_list = ['v1', 'v2'] a = {'ke

原创 json_load

with open('/Users/ronald/Downloads/Archive/resume.json','r') as f: cvResult = f.readlines() import json for c i

原创 邏輯迴歸

https://blog.csdn.net/u013019431/article/details/79982258 ?在邏輯迴歸中,由於做了一次壓縮所以沒辦法做正態分佈的似然估計,這裏採用的是做二項分佈的假設。 sklearn.lin

原创 將數據保存爲pickle文件

#保存爲pickle文件 pipe_path='pipe_feature_nb_all.pkl' with open(pipe_path,'wb') as fw: pickle.dump(Pipe,fw) #加載pickle

原创 爬蟲程序2

from bs4 import BeautifulSoup import requests from lxml import etree import re def get_url(url): r = requests.get

原创 機器學習-分類3

今天,輸出了cross validation 在每個類別裏面的 模型評估值。 主要有下面2步: #這是將輸出變成pandas矩陣的函數 from sklearn.metrics import classification_report

原创 SVM1

https://blog.csdn.net/DP323/article/details/80535863 SVM簡介 SVM在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢。 SVM是建立在統計學習理論的VC維理論和結構風險最

原创 SVM2

線性分類器的求解 上節說到線性分類函數,也有了判斷解優劣的標準–即有了優化的目標,這個目標就是最大化幾何間隔。 1.SVM優化的目標有最小化||w||,我們常常使用另一個完全等價的目標函數來代替,那就是: 2.對於目標函數,要考慮如

原创 正則表達式

import re r加在字符串前面;[]取中括號內任意的一個,a[0-9]b,a[-+*/]b re.findall 代表輸出所有匹配到的字符 re.search().group() 有結果就輸出,只匹配成功一次就返回 re.ma

原创 總結一下我寫過的讀文件的方式

讀取excel # 讀取excel worksheet = xlrd.open_workbook(filepath) table = worksheet.sheet_by_index(1)#讀取第一個sheet裏面的類容 datas=