原创 1. 初識Pandas

1. 重要前言 這段時間和一些做數據分析的同學閒聊,我發現數據分析技能入門階段存在一個普遍性的問題,很多憑着興趣入坑的同學,都能夠很快熟悉Python基礎語法,然後不約而同的一頭扎進《利用Python進行數據分析》這本經典之中,

原创 PageRank通俗說

PageRank是執行多次連接的一個迭代算法,因此它是RDD分區操作的很好demo,算法維護兩個數據集(pageID,listList) 包含每個頁面的相鄰頁面列表。(pageID,rank) 包含每個頁面的當前排序值, pageRan

原创 3. 清洗常用4板斧

引言 這是Python數據分析實戰基礎的第三篇內容,主要對前兩篇進行補充,把實際數據清洗場景下常用但零散的方法,按增、刪、查、分四板斧的邏輯進行歸類,以減少記憶成本,提升學習和使用效率。 數據集 一級流量 流量級別 投放地區

原创 2. 靈活的Pandas索引

序言 學習了Pandas的同學,有超過60%仍然投向了Excel的懷抱,之所以做此下策,多半是因爲剛開始用Python處理數據時,選擇想要的行和列實在太痛苦,完全沒有Excel想要哪裏點哪裏的快感。 初識Pandas 教程考慮到篇

原创 5. TGI指數分析實戰

引言 經常有一些專業的數據分析報告,會提到TGI指數,例如“基於某某TGI指數,我們發現某類用戶更偏好XX”。對於不熟悉TGI定義的同學,看到類似的話一定是雲山霧罩。這次,我們就來聊一聊什麼是TGI指數以及怎麼樣結合案例數據實現簡

原创 4. 優雅的apply

引言 本文主要講的是Pandas中第二好用的函數——apply。爲什麼說第二好用呢?做人嘛,最重要的就是謙虛,做函數也是一樣的,而apply就是這樣一個優雅而謙虛的函數。 我們單獨用一篇來爲apply樹碑立傳,原因有二, 一是因

原创 第二天:Kafka API操作

API 消息發送流程 Kafka的Producer發送消息採用的是異步發送的方式。在消息發送的過程中,涉及到了兩個線程——main線程和Sender線程,以及一個線程共享變量——RecordAccumulator。main線程將消

原创 第二天:Spark Core

Java IO回憶 字節跟字符區別(基礎圖),InputStream、OutputStream、Writer、Reader 。 字節流,分2種: a.輸入 b.輸出 2.字符流,也分2種: a.輸入(讀,即讀取) b.輸

原创 第三天:SparkSQL

第1章 Spark SQL概述 什麼是Spark SQL Spark SQL是Spark用來處理結構化數據的一個模塊,它提供了2個編程抽象:DataFrame和DataSet,來作爲分佈式SQL查詢的引擎。 我們已經學習了Hive

原创 第一天:Kafka理論學習

1. Kafka 概述 1. 定義 Kafka是一個分佈式的基於發佈/訂閱模式的消息隊列(Message Queue),主要應用於大數據實時處理領域。 在流式計算中,Kafka一般用來緩存數據,Storm通過消費Kafka的數據進

原创 第四天:Spark Streaming

Spark Streaming概述 1. Spark Streaming是什麼 Spark Streaming用於流式數據的處理。Spark Streaming支持的數據輸入源很多,例如:Kafka、Flume、Twitter、Z

原创 第三天:HBase API

API調用 工作中更常用的絕對是通過HBase的API來調用實現類似HBase shell的操作。 環境準備 IDEA + Maven + HBase <?xml version="1.0" encoding="UTF-8"?>

原创 第四天:HBase 優化

1. 高可用 在HBase中Hmaster負責監控RegionServer的生命週期,均衡RegionServer的負載,如果Hmaster掛掉了,那麼整個HBase集羣將陷入不健康的狀態,並且此時的工作狀態並不會維持太久。所以

原创 全網最強HashMap講解

預備知識 位運算知識 位運算操作是由處理器支持的底層操作,底層硬件只支持01這樣的數字,因此位運算運行速度很快。儘管現代計算機處理器擁有了更長的指令流水線和更優的架構設計,使得加法和乘法運算幾乎與位運算一樣快,但是位運算消耗更少

原创 分佈式系統淺談

分佈式系統基礎知識 一個tomcat打天下的時代,不能說完全淘汰了,在一個管理系統,小型項目中還經常使用,這並不過分,出於成本的考慮,這反而值得提倡。但如果要延伸到高併發場景下就必然要了解分佈式系統: 分佈式系統特點 分佈式系統