原创 數理統計的相關知識

閒情逸致,寫幾篇小文,也算是安慰一下自己 ------------統計分析常用分析方法------------- 下圖總結了統計學中我們常用到的一些統計分析方法,圖表來源於Ben老師。從大類來看,分析包含四大類:探索性分析(新產品

原创 python遍歷文件夾中帶指定後綴的文件並做數據拼接

1、背景 不知道小夥伴們平時有沒有這樣的困惑,去平臺上面瘋狂的導數,然後複製粘貼,做加工處理,做個表格,交給領導看,稍微不注意,還出錯,被領導一頓批,下面我介紹一種簡單的應用場景,使用代碼來批量實現。 具體的情況如下: (1)在某

原创 統計推斷中的參數估計和假設檢驗

統計檢驗:參數估計、卡方檢驗、T檢驗、方差分析、相關分析 樣本t檢驗、方差分析、相關分析都可以用來篩選變量。 參數估計的兩種方式:點估計和參數估計,用樣本來推斷總體。 問題:領導讓你統計一下北京9月平均房價是多少?? 點估計: 事

原创 常見分佈的概率分佈及期望方差

文章轉載:https://www.jianshu.com/p/c05bafb52877f 參考鏈接:https://blog.csdn.net/sodacoco/article/details/89041910

原创 多元線性迴歸模型檢驗-續上篇

https://editor.csdn.net/md/?articleId=105137945 其實上一篇討論的多元線性迴歸還不是很全面,而且訓練和測試集都沒有分,在這裏繼續討論多元線性迴歸模型檢驗的相關問題。 只要有P值的出現,

原创 統計建模-多元線性迴歸預測房價

簡單聊聊統計建模中,使用多元線性迴歸模型來預測房價。 文章目錄變量描述:(1)讀取數據(2)單變量描述(3)自變量對因變量的影響分析(4)檢驗變量重要性(5)篩選出重要變量建模(6)模型檢驗,也就是殘差檢驗(7)模型調優(8)總結

原创 常用廣告計價方式

當今,廣告可謂是遍佈在生活的方方面面,不論是坐地鐵的大張海報、宣傳欄,地鐵裏面的移動電視,各大高樓大廈的液晶顯示屏;看在線視頻時令人討厭的前貼片、中插、彈幕廣告等,幾乎無處不在,下面簡單介紹一下廣告的計價方式: CPM:說白了就是

原创 關於從事數據分析行業的一些思考

剛畢業半年,半吊子水平的數據分析師,面試官基本上也不問你特別深層次的東西,問了一些有關職業的理解和發展規劃,現在把他記錄在博客上面,後續繼續改正,如有不妥之處,還望批評指正。 0X01數據分析師的理解 一、數據分析師的產生 數據分

原创 統計分析知識之--描述性統計

數據統計之描述性統計: 變量類型 包括分類變量和連續變量。如果細分分類變量又可以分爲名義變量和等級變量,名義變量沒有高低貴賤之分,如男女性別,等級變量存在等級之間的劃分,如成績的優良、中等、及格等: 度量標準 分類變量: 分類變量

原创 python遍歷sheet並將處理結果存儲到當前工作表中

1、背景 剛開始的時候,領導給了我一張excel表,她說每週都不定期更新,每次更新都是複製粘貼,不但容易出錯,而且要花費2個多小時,然後她問我,你在下班時間可以考慮怎麼用腳本如python,或VBA把這個東西做批量化處理,提高一下

原创 【活動分析】某電商雙十一活動分析報告

某電商雙十一活動分析報告1營收總述1.1營收結構1.2營收趨勢1.3訂單構成1.4訂單趨勢1.5用戶結構2商品分析2.1訂單價格區間分佈2.2各價格區間銷售量及銷售額分佈2.3各類商品訂單數2.4各類商品銷售額2.5商品二八法則3

原创 mysql求累計值,實現python中cumsum的功能

由於實際需要,特意寫此博客記錄一下怎麼在mysql中實現累加的功能,達到python中cumsum的效果 博客參考:https://www.cnblogs.com/bourneli/archive/2013/08/09/32489

原创 神經網絡文章整理

最近在看神經網絡,前向傳播其實比較容易理解,但是對於反向傳播理解不是很透徹,所以特意整理了幾篇優秀博主文章來進行學習,感覺相當不錯,特意轉載。 神經網絡概述: https://www.cnblogs.com/subconsciou

原创 關於AUC和ROC曲線的理解

http://blog.csdn.net/dinosoft/article/details/43114935 http://my.oschina.net/liangtee/blog/340317

原创 閒聊數據建模流程

建模閒聊1、取數:2、簡單理解變量:3、看變量分佈:4、數據預處理:5、特徵選擇:6、建模: 閒聊在數據建模之前的一些數據預處理步驟。 如何培養數據之間的敏感性,多看各指標的分佈,通過直方圖,柱形圖,概率密度圖能看到數據的分佈情況