原创 《赤裸裸的統計學》讀後感

《赤裸裸的統計學》,作者[美]查爾斯·韋蘭,2013年出版,豆瓣評分8.1分,可以作爲統計學入門讀物很好的一本書,知識點淺顯易懂,對小白非常友好,有統計專業知識的人可能會覺得乾貨略少。總的來說,值得一讀,推薦指數4顆星。文章末尾有關於這本

原创 學習SQL:MySQL必知必會

《MySQL必知必會》這本書是2009年出版,從SQL語句的數據檢索、子查詢、聯結、正則表達式等內容講起,適用於沒有學過SQL以及剛開始接觸SQL的人,書本身比較簡潔,就是在講基礎,想要更加深入地學習的話,推薦《深入淺出MySQL》,這本

原创 再說相關性分析

標題叫再說相關性分析,爲什麼叫再說呢?因爲之前說過了唄,但是一個知識點你反覆咀嚼的時候就是會有不同的感悟,因此這篇文章要再來說說相關性分析。 什麼是相關性 百度百科給的解釋是:兩個變量的關聯程度。 或者多個變量,或者變量與變量之間吧的關聯

原创 SQL今日一題(3):內連接

這是SQL隔日一題的第3篇文章 題目描述 查找各個部門當前(dept_manager.to_date='9999-01-01')領導當前(salaries.to_date='9999-01-01')薪水詳情以及其對應部門編號dept_

原创 SQL今日一題(5):一題多解

這是SQL今日一題的第5篇 題目描述 查找所有員工入職時候的薪水情況,給出emp_no以及salary, 並按照emp_no進行逆序(請注意,一個員工可能有多次漲薪的情況) 這題要用到employees表和salaries表,兩個表以

原创 數據分析應關注AARRR模型的哪些指標

AARRR模型就是 Acquisition(獲取) Activation(活躍) Retention(留存) Revenue(收益) Refer(傳播) 這5個單詞的縮寫,對應用戶生命週期中5個重要的環節,其實就是一個漏斗模型,每一個環節

原创 《深入淺出數據分析》讀後感

好久沒有更新讀書系列的文章了,今天推薦的這本《深入淺出數據分析》是一本非常適合數據分析行業入門的讀物,以章回小說的方式由淺入深地講述數據分析從業人員要用到的方法,從實際案例出發,告別晦澀難懂的概念。文章末尾有關於這本書的知識圖譜總結。 深

原创 泰坦尼克號數據分析案例實戰

這是一個很經典的案例,很多博主都寫過,對,就是它:泰坦尼克號生存率的分析,它是kaggle上的一道題,通過船上乘客的信息分析和建模,預測哪些乘客得以生還。 我們就非常粗暴地拿這個數據集做一個簡單的分析好了。 使用工具:Excel (對,就

原创 Python數據分析:探索性分析

寫在前面 如果你忘記了前面的文章,可以看看加深印象:Pandas數據處理Python數據分析實戰:缺失值處理Python數據分析實戰:獲取數據 然後可以進入今天的正文 一、描述性統計分析 Excel裏可以用【數據分析】功能裏的【描述統計】

原创 Python數據分析:缺失值處理

寫在前面 上週我們讀取完了數據(Python數據分析實戰:獲取數據),下面就要對數據進行清洗了,首先是對缺失值的處理。缺失值也就是空值,先找出來再處理。 查看缺失值 可以使用isnull方法來查看空值,得到的結果是布爾值。 # 查看缺失

原创 Python數據分析實戰:獲取數據

這是 利用Excel學習Python 系列的第8篇文章 想用一個完整的案例講解Python數據分析的整個流程和基礎知識,實際上以一個數據集爲例,數據集是天池上的一個短租數據集。 先來想一下數據分析的流程,第一步獲取數據,因此本節內容就

原创 Python學習筆記(7):數據框

前一篇文章提到了序列,可以理解爲Excel裏沒有列名的一列數據,那麼Excel裏的由行列組成的表數據是如何對應到Python中的呢?就是今天要說的數據框:DataFrame。 它是由一組數據和一對索引(行索引和列索引)組成的二維數據結構,

原创 如何製作高大上的圖表

爲什麼你的報告中的圖老闆總是瞧不上,爲什麼我們覺得這圖可以了,老闆卻總是不滿意,不要你覺得,要老闆覺得。 很多人有一個誤區,就是分析很重要,展示不重要,這就好比你有滿腔的熱血、滿腹的才華,卻茶壺裏煮餃子——肚裏有貨倒不出。光埋頭苦幹有什

原创 pandas學習筆記(1):準備篇

工慾善其事必先利其器,在正式進入python學習前,我們需要進行一些準備,包括python的下載與安裝,常用的IDE,以及最後選擇一個IDE進行練習。   1.Pandas和Python Python是膠水語言,學習時要有所取捨。對於有用

原创 python學習筆記(2):變量

變量,從名稱就可以理解,變化的量,與之相對的是常量,就是不會改變的量。   1.變量 變量有兩個要素,變量名和值,變量一般這樣表示:變量名 = 值,我們把變量名叫做標識符,變量名不是隨便起的,要遵循以下原則: 以字母或下劃線,由字母、數