原创 關於DataFrame的文本數據導入

DataFrame確實使用方便,但是如果每次導入數據都需要我們自己手動實現未免太麻煩了些,以下就介紹DataFrame對不同格式文件的導入 本章僅僅介紹txt或文本文件 帶標題的文本文件,例如:     name    pop eco h

原创 C++代碼實現梯度下降算法並給出測試用例

此處僅給出代碼實現,具體原理及過程請看前面的博文 測試文件輸入格式如下: 2 10 0.01 10 2104 3 399900 1600 3 329900 2400 3 369000 1416 2 232000 3000 4 53990

原创 c++實現logistic迴歸代碼

測試題目: 代碼說明: 1.在main中我用了一個輸入文件來表示輸入,測試時應去除 2.以下函數分別是計算預測值,計算costfunction,羅輯迴歸的執行 3.具體類似於線性迴歸,可參考線性迴歸之梯度下降 代碼如下: #incl

原创 神經網絡和BP算法C及python代碼

以上僅給出了代碼。具體BP實現原理及神經網絡相關知識請見:神經網絡和反向傳播算法推導 首先是前向傳播的計算: 輸入: 首先爲正整數 n、m、p、t,分別代表特徵個數、訓練樣本個數、隱藏層神經元個數、輸出 層神經元個數。其中(1<n<=1

原创 決策樹ID3算法C++代碼及測試用例(bug版)

有bug,一直未找到,閒暇下來在看看,存一檔 輸入格式 首先爲正整數n、m,分別代表特徵個數、訓練樣本個數。 隨後爲m行,每行有n+1個整數。其中(1<n<=100,1<m<=1000)。 在後續的m行中,每行代表一個樣本中的n個整數

原创 關於C++在堆中建立二維數組的問提及二維數組的使用常識

一.int[][]和int **的區別: 相當明顯,int[][]是連續的空間!而int**a是半連續的,即不同的行是不連續的,但是同一列是連續的 所以:在參數傳遞時候,二者不可互傳,即使是[][]傳**,因爲int** 和a[][]雖

原创 pandas介紹

簡介pandas其實是numpy的升級版,加強了索引的處理功能和對缺失數據的處理,具體有什麼方便的地方以後詳述。 引入包: import pandas as pd Series:實質上是一個key-value對應的一個列表的數據結構,例

原创 TOP-K排序算法,從海量不重複數據中找出最大/小的K個數

如題,TOP-K排序的主要功能是找出一堆不重複數據中的最小或最大的幾個數,此處我們介紹這種類型題目的某種解法: 最大最小堆,最大堆結構裏面的每一個數不都是小於root的值麼?和我們要解決的問題很像。由此,我們可以構造一個堆,並且用它來存儲

原创 特徵值縮放和過擬合與欠擬合的最low解法

特徵值縮放: 例子:有一個feature序列,x1基本大於10000,x2都是小於0.01的數,這樣可能需要花很長時間才能收斂,解決辦法就是特徵值縮放 這樣可以將數據控制在【-1,1】的區間內 過擬合問題和欠擬合問題都是由於特徵值沒有選

原创 perception感知器算法的C語言實現代碼

此處僅給出代碼實現,具體原理及過程請看前面的博文 文件輸入格式如下: 2 4 0.25 5 0 0 0 0 1 1 1 0 1 1 1 1 0.06230 0.01123 -0.07335 含義如下: 實現代碼如下:(注:爲了通用性,本