原创 AB實驗樣本量確定

文章目錄1. 統計功效與關鍵概念2. Z檢驗樣本量確定2.1 統計功效公式推導2.2 樣本量計算公式2.3 求解樣本量3. 卡方檢驗樣本量確定3.1 求解樣本量4. 簡要總結Reference 在數據分析過程中,一個完整的閉環是從

原创 【概率論】- (1)區間估計

文章目錄1. 區間估計與置信區間2. 正態總體的區間估計2.1 方差已知,估計均值2.2 方差未知,估計均值2.3 均值未知,估計方差2.4 其他3. 非正態分佈的區間估計3.1 中心極限定理Reference 在數據分析過程中,

原创 Spark學習—— (1+)補充Spark各個組件的簡單介紹

之前的筆記中Spark學習—— (1) 原理介紹,對Spark的基本原理進行介紹,對於各個組件簡單帶過了,這裏稍微補充一下。 1. Spark的各個組件 Spark的各個組件如下,在圖中自底向上可分爲三個部分:資源管理器、Spar

原创 【概率論】- (2)假設檢驗

文章目錄1. 概念與求解思路1.1 關鍵概念1.2 求解思路2. 雙邊檢驗與單邊檢驗2.1 雙邊檢驗2.2 單邊檢驗3. 另一種求解思路:p值檢驗3.1 求解思路3.2 單邊檢驗3.3 雙邊檢驗Reference 在數據分析過程中

原创 《Hive用戶指南》-HiveSQL轉化爲MapReduce任務

文章目錄1. hive.fetch.task.conversion參數2. 轉化爲MR任務的SQL2.1 JOIN2.2 GROUP BY2.3 DISTINCTReference Hive是Facebook實現的一個開源的數據倉

原创 《增長黑客》- 讀書筆記(五)實戰之拉新、激活、留存、變現

文章目錄1. 拉新1.1 語言-市場匹配1.2 渠道-產品匹配1.3 設計病毒循環2. 激活2.1 定位激活實驗的三個關鍵步驟2.2 觸發物策略3. 留存3.1 初期留存3.2 中期留存3.3 長期留存4. 變現4.1 繪製變現漏

原创 《Spark快速大數據分析》- Spark應用運行原理

文章目錄1. Spark的主從結構1.1 驅動器程序Driver1.2 執行器程序Executor2. 集羣管理器概念區分3. 運行流程小結Reference 本文是在閱讀《Spark快速大數據分析》後,根據裏面提到的知識點,對S

原创 《Spark快速大數據分析》- 根據簡單例子理解RDD

1. RDD簡介 RDD,彈性分佈式數據集(Resiliennt Distributed Datasets),是Spark中最重要的核心概念,是Spark應用中存儲數據的數據結構。 RDD 其實就是分佈式的只讀元素集合。一個Spa

原创 《Hive用戶指南》- Hive性能調優

文章目錄1. 數據模型相關1.1 Partition 分區表1.2 Bucket 桶表2. 場景優化2.1 全排序2.2 笛卡爾積2.3 EXISTS/IN子查詢2.4 Multi-group by3. 配置相關4. 數據傾斜問題

原创 Spark學習—— (4+) SparkContext與SparkSession

SparkContext與SparkSession SparkContext、SparkSession是對Spark計算集羣的一個連接,當我們通過shell啓動Spark時,會默認創建,如SparkContext會默認創建一個命名

原创 推薦系統學習 - (1)基本算法

文章目錄1. 推薦系統簡介1.1 推薦系統是什麼?1.2 推薦系統的類型2. 推薦系統常用算法2.1 協同過濾算法2.1.1 UserCF基礎算法2.1.2 ItemCF基礎算法2.1.3 相似度修正2.1.4 UserCF與It

原创 Spark學習—— (6) 鍵值對RDD編程(基於Python)

鍵值對RDD是許多操作所需要的常見數據類型,也叫做pair RDD通常我們會從一個RDD提取某些信息作爲新的RDD的鍵,構成一個鍵值對RDD。 pair RDD也是RDD,所以上一篇筆記中介紹的RDD操作對pair RDD同樣適用

原创 Spark學習—— (1) 原理介紹

本文分爲三個部分: 第一部分介紹Spark的概念,通過與Hadoop的對比,使得對Spark的定位有一個較清晰的理解。 第二部分通過介紹基本術語,瞭解Spark基本、簡略的運行流程,對Spark的運行流程有一個初步概念。 第三部分

原创 Spark實戰—— (1) zookeeper簡介與環境搭建

文章目錄1. Zookeeper是做什麼的?1.1 簡介1.2 應用場景2. 核心:Paxos算法3. Zookeeper分佈式集羣搭建3.1 環境3.2 安裝3.3 配置3.4 啓動集羣4. 集羣簡單使用Reference 1.

原创 Git與Github用法總結

文章目錄2. 常用指令2.1 git add \2.2 git commit \2.3 git reset2.4 修改最後一次提交2.5 恢復刪除文件2.6 git log3.關於分支3.1 創建分支3.2 切換分支3.3 合併、