原创 NLP基礎知識1

1.中英文分詞的區別: 中文:啓發式 Heuristic 英文:機器學習、統計學習 HMM,CRF 2.社交網絡語言的分詞處理 1)用正則表達式將特殊符號歸併起來 2)用re.complie將其編譯一下 3)自定義tokenize,返回t

原创 NLP-從語言模型到樸素貝葉斯

1.貝葉斯--有監督學習:           p(Y|X)=p(X|Y)P(Y)/p(X)       Y==>label,X==>attribute,p(Y|X)後驗概率,p(X)先驗概率     貝葉斯公式+條件獨立假設 = 樸素貝

原创 無監督學習之K-Means

1.K-Means要完成的事情 1.1簇分類 遍歷所有數據,判斷其與聚類中心點的距離,將與劃分到與其最近的點的一類 1.2移動聚類中心 將K個聚類中心點移動到其所在點的均值處 若出現某一個聚類中心點沒有點,要麼重新初始化所有的據類中心點

原创 模型調整

1.改進模型性能: 1.1獲取更多訓練數據(解決高方差:畫出學習曲線,判斷是否是高方差問題) 1.2改變特徵數量 選用更少的特徵(防止過擬合)  (解決高方差) 選用更多的特徵(解決高偏差) 增加多項式特徵(x1的平方,x2的平方,x1*

原创 神經網絡在分類中的應用

我們知道,邏輯迴歸可以用來分類,但僅僅是對於特徵量很少時,當特徵量特別多時,就不適用了,所以引入了神經網絡。 聲明一下,當類別數C>=3時,輸出層有C個結點,否則只用一個結點就可以了;激活函數就是非線性函數比如sigmoid、Relu等。

原创 決策邊界、代價函數、多元分類

1.決策邊界:根據logistic迴歸方程的假設函數h(x)=g(),g(z)=1/(1+e^(-z)),g(z){0,1},可知當g(z)>=0.5時z>=0,相反z<0,分類時只要滿足>=0就可以實現分類,當參數確定時,即可繪製出一條

原创 從xml文件和jpg的混合文件夾中獲取xml對應的jpg文件

問題描述:同事給了我一堆只有xml文件的文件夾,又給了一些含有xml文件對應的jpg文件(jpg文件數目大於xml文件數目),讓我幫他把xml文件對應的jpg文件挑出來。 解決方法: 一、手動   如果數量很少,可以直接將xml文件複製進

原创 解決anaconda安裝第三方包出現的 ERROR: Command errored out with exit status 1

問題描述:anaconda安裝PySide出現了以下問題   ERROR: Command errored out with exit status 1:      command: 'd:\anaconda3\python.exe' -