原创 pandas 使用技巧

# 根據定好的columns去給數據集填值 # 數據集中與定好的columns中匹配的保留,缺失的根據fill_value的值進行填充,多餘的忽略 a = pd.DataFrame({'haha': range(5), 'didi'

原创 外匯心理學

除了下列提取的部分讀書筆記之外,還有作者的一些操作實例,挺有參考意義的 https://www.jianshu.com/p/ce8b283b6a72?utm_campaign=maleskine&utm_content=note&utm_

原创 2018 12 - 2018 2 學習任務計劃

序號 學習任務 目標 關鍵輸出結果 預估時間 實際完成時間 完成進度與備註 1 《算法圖解》 閱讀整本書 讀書筆記、整體總結 12.1 - 12.30 12.5:閱讀百分之1012.10:閱讀百分之30 2 《統計

原创 算法圖解讀書筆記

歐幾里得算法: 在數學中,輾轉相除法,又稱歐幾里得算法 兩個整數的最大公約數等於其中較小的數和兩數的差的最大公約數。例如,252和105的最大公約數是21, 252 − 105 = 21 × (12 − 5) = 147,147與 1

原创 ods,dw,dm理解

ods,dw,dm解釋與理解 ods:操作性數據倉庫ods的應用場景 1.在業務系統和數據倉庫之間形成一個隔離,ods直接存放從業務系統抽取過來的數據,這些數據從結構和數據上與業務系統保持一致,降低了數據抽取的複雜性。 2.轉移一部分

原创 時間序列

時間序列是同一現象在不同時間上的相繼觀察值排列而成的序列。 經濟數據大多數以時間序列的形式給出。 時間序列分平穩序列與非平穩序列。 平穩序列是基本不存在趨勢的序列,在某個固定水平上有所波動但不存在某種規律,隨機。 非平穩序列是包含趨勢

原创 Linux 離線安裝pyspark

首先第一步: 安裝anconda(並且帶上了pandas, numpy, scikit-learn)流程 1, 首先安裝anconda2 ./Anaconda2-5.2.0-Linux-x86_64.sh 2, 配置全局變量 vi /

原创 數據清洗方法

作者:網易雲 鏈接:https://www.zhihu.com/question/22077960/answer/473720583 數據清洗是將重複、多餘的數據篩選清除,將缺失的數據補充完整,將錯誤的數據糾正或者刪除,最後整理成爲

原创 adaboost理解

源至 https://github.com/apachecn/hands_on_Ml_with_Sklearn_and_TF/blob/dev/docs/7.%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0%

原创 建模常用的概念介紹1: WOE、IV

https://blog.csdn.net/PbGc396Dwxjb77F2je/article/details/78790106

原创 SVM

https://github.com/apachecn/hands_on_Ml_with_Sklearn_and_TF/blob/dev/docs/5.%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%

原创 pandas 分組聚合

選取一列或列的子集 對於由DataFrame產生的GroupBy對象,如果用一個(單個字符串)或一組(字符串數組)列名對其進行索引,就能實現選取部分列進行聚合的目的。也就是說: df.groupby('key1')['data1'] df

原创 pandas基礎使用

作者:SeanCheney 鏈接:https://www.jianshu.com/p/161364dd0acf 沒有全部詳細整過來,大概弄了一下 sort_values 列可以通過賦值的方式進行修改。例如,我們可以給那個空的

原创 數據清洗與準備 (pandas)

作者:SeanCheney 鏈接:https://www.jianshu.com/p/ac7bec000dad# 把其中較爲重要部分做了篩選便於查看 與處理缺失值相關的api 濾除缺失數據 過濾掉缺失數據的辦法有很多種。你可以通過p

原创 pandas常見操作

處理缺失值 total = train.isnull().sum().sort_values(ascending = False) percent = round(train.isnull().sum().sort_values(asce