原创 機器學習——線性迴歸模型詳解

線性的含義 線性的理解:它是一條直線,這可能讓我們回到初中、高中時候定義的y=ax+b,而在線性迴歸模型中,它是一個特徵或多個特徵和結果的擬合模型(好比預測房子的價格,房子的面積、房齡、房間數等等特徵,而所要預測的房子的價格就是需

原创 主成分分析(PCA)推導過程及簡單實例

介紹 主成分分析(Principal Component Analysis,PCA)是一種常用的數據降維算法,可以將高維度的數據降到低維度,並且保留原始數據中最重要的一些特徵,同時去除噪聲和部分關聯特徵,從而提高數據的處理效率,降

原创 Python中讀取txt文件的三種可行辦法

DataTest.txt中的文件內容,文件最後儘量不要留空行,否則有的時候會出現error 1,2,3 4,5,6 7,8,9 第一種方式:使用 csv.reader()讀取txt文件 import csv data = []

原创 Windows和Ubuntu環境下修改Jupyter Notebook默認文件路徑

本文有兩部分,分別介紹在Windows和Ubuntu環境下,如何修改Jupyter Notebook默認文件路徑。1)Windows環境中有三個步驟,而網上多數答案只提供兩步,結果保存的文件還在原來的路徑,根本不起作用;2)Ubu

原创 將csv轉換爲json,並查找json中的數據

一.讀取csv,並且轉爲json json和字典不同,字典是一個特定數據結構,而json是一種數據的傳輸格式。通常先構造標準的數據結構格式dict,然後通過json.dumps(dict)方法將dict一次性轉化爲json格式。因

原创 pd.read_csv()報'utf-8' codec can't decode bytes in position 20-21: invalid continuation byte異常的處理

原因 csv中的編碼格式是‘ANSI’,而Python 3默認讀取格式爲‘utf-8’,導致decode異常,不過編碼格式也有可能是其它格式,反正不是‘utf-8’,所以要對症下藥。本文提供兩種解決方式,均已嘗試過。 方案1: pd.

原创 Java查找字符串並替換爲字典中的value值

問題: 根據字典對字符串中的字母進行替換 ,並打印出所有的可能,使用Python會更容易些,直接調用字典就可以了。這裏使用Java,並通過Json解析字典。 比如說:字典數據爲:{‘x’: [‘A’, ‘B’], ‘y’: [‘Y’]

原创 主成分分析(PCA)推導過程及實例

介紹 主成分分析(Principal Component Analysis,PCA)是一種常用的數據降維算法,可以將高維度的數據降到低維度,並且保留原始數據中最重要的一些特徵,同時去除噪聲和部分關聯特徵,從而提高數據的處理效率,降低時

原创 修改Jupyter默認文件路徑的可行方法

修改Jupyter默認文件路徑,有三個步驟,而網上很多答案只有兩個,結果保存的文件還在原來的路徑,根本不起作用。迴歸正題,這裏以Anaconda 3 爲例,運行系統是Win 7。 1、添加jupyter_notebook_config

原创 改進的迭代尺度法(IIS)詳細分析

改進的迭代尺度法(Improved Iterative Scaling,IIS)是一種常見的優化算法,在最大熵模型和條件隨機場(Conditional Random Field,CRF)中都會用IIS進行相應的處理,從而提高算法的效率

原创 隱馬爾可夫模型基本問題——概率計算問題詳細講解

概率計算問題又稱評價問題(Evaluation Problem) 已知條件:給定模型λ=[A,B,π]\lambda=[A,B,\pi]λ=[A,B,π]和觀測序列O=(o1,o2,o3,...,on)O=(o_{1},o_{2},o

原创 SMO(Sequential minimal optimization)算法的詳細實現過程

SMO算法主要是爲優化SVM(支持向量機)的求解而產生的,SVM的公式基本上都可以推到如下這步: maxα∑i=1mαi−12∑i=1m∑j=1mαiαjyiyjxiTxjmax_{\alpha}\sum_{i=1}^{m}\alph

原创 Python中讀取txt文件的兩種可行辦法

DataTest.txt中的文件內容,文件最後儘量不要留空行,否則有的時候會出現error 1,2,3 4,5,6 7,8,9 第一種方式:使用 csv.reader讀取txt文件 import csv data = [] wit