原创 學習筆記 | 獲取Employees中的first_name | substr函數

# sqlite SELECT first_name FROM employees ORDER BY substr(first_name,length(first_name)-1) asc; SELECT first_na

原创 學習筆記 | python網絡爬蟲 爬蟲簡介

01 Python爬蟲環境與爬蟲簡介 內容:爬蟲的定義 + 網絡爬蟲的類別 + 獲取到內容的合法性的討論 本章對爬蟲及反爬蟲進行了一個基本概述,同時簡要介紹了Python爬蟲環境,對本章內容做小結如下。 爬蟲是一種可以自動下載網

原创 學習筆記 | Python知識要點圖

Python知識要點 —— 思維導圖

原创 學習筆記 | 提高Python代碼質量的20個技巧

程序 = 算法 + 數據結構 01 基本數據類型 推導式、字符串的連接和拆分、格式化字符串、collections 02 函數 可變長參數、Lambda表達式、高階函數、裝飾器、生成器 可變長參數:參數

原创 學習筆記 | 研究關聯性、相關係數

01 二次函數、二次方程式、二次不等式 二次函數 二次方程式 ax2+bx+c=0 這是二次方程式的一般式。“y=0”在座標圖上則代表x軸本身。即將y=0代入二次方程式所得到的兩個解,就是二次函數的圖像與x軸的交點(x座標)

原创 學習筆記 | 倖存者偏差 Survivorship Bias

01 倖存者偏差概念的本質是什麼? 用統計學的專業術語來解釋是——“選擇偏倚”,即我們在進行統計的時候忽略了樣本的隨機性和全面性,用局部樣本代替了總體隨機樣本,從而對總體的描述出現偏倚。 倖存者偏差(Survivorshi

原创 學習筆記 | 二八定律、ABC分析法

01 二八法則 在任何特定羣體中,重要的因子通常只佔少數,而不重要的因子則佔多數,因比只要能控制具有重要性的少數因子即能控制全局。 二八法則是一種不平衡法則,即20%的對象產生80%的效果,20%是對象,80%是效果,前後不是一

原创 學習筆記 | 描述分散趨勢

描述性統計量 | 描述分散趨勢 01 標準差:以平均值爲基準來表示數據的離散程度。 標準差是離均差(x-u)平方和平均後的方根,用σ表示。 02 方差:以平均值爲基準來表示數據的離散程度。 方差是標準差的平方; 標準差是

原创 學習筆記 | 數據分析之AB Test

數據分析之AB Test 業務發展 -> 用戶增長 AB test是伴隨着業務增長的利器,在產品功能及策略迭代過程中有重要價值。 數據分析指標:點擊率、轉化率。 A/B實驗的重要理念:寧肯砍掉4個好的產品,也不應該讓1個不好的產

原创 學習筆記 | 數據分析基本流程

一. 數據分析的基本流程 01 明確需求與目的 02 數據收集:巧婦難爲無米之炊 內部數據:內部數據庫 購買數據 爬取數據:Python網絡爬蟲 調查問卷 03 數據預處理:保證數據質量 數據清洗:缺失值、異常值、重複值 數

原创 學習筆記 | SQL刷題 | 對所有員工的薪水按照salary進行按照1-N的排名

題目描述 對所有員工的當前(to_date='9999-01-01')薪水按照salary進行按照1-N的排名,相同salary並列且按照emp_no升序排列 CREATE TABLE `salaries` ( `emp_no`

原创 學習筆記 | Pandas讀寫不同數據源的數據

01 讀寫不同數據源的數據 02 讀寫文本文件 03 Excel文件讀取

原创 學習筆記 | 假設檢驗概念、小概率事件、P-Value與顯著性水平、假設檢驗步驟

我們在生活中經常會遇到對一個總體數據進行評估的問題,但我們又不能直接統計全部數據,這時就需要從總體中抽出一部分樣本,用樣本來估計總體情況。 01 假設檢驗概念:反證法 假設檢驗,也稱爲顯著性檢驗,是通過樣本的統計量,來判斷