台部落SoWhat1412

1. 重要前言這段時間和一些做數據分析的同學閒聊，我發現數據分析技能入門階段存在一個普遍性的問題，很多憑着興趣入坑的同學，都能夠很快熟悉Python基礎語法，然後不約而同的一頭扎進《利用Python進行數據分析》這本經典之中，

2020-07-07 11:00:40

PageRank是執行多次連接的一個迭代算法，因此它是RDD分區操作的很好demo，算法維護兩個數據集(pageID,listList) 包含每個頁面的相鄰頁面列表。(pageID,rank) 包含每個頁面的當前排序值， pageRan

2020-07-07 11:00:40

引言這是Python數據分析實戰基礎的第三篇內容，主要對前兩篇進行補充，把實際數據清洗場景下常用但零散的方法，按增、刪、查、分四板斧的邏輯進行歸類，以減少記憶成本，提升學習和使用效率。數據集一級流量流量級別投放地區

2020-07-07 11:00:39

序言學習了Pandas的同學，有超過60%仍然投向了Excel的懷抱，之所以做此下策，多半是因爲剛開始用Python處理數據時，選擇想要的行和列實在太痛苦，完全沒有Excel想要哪裏點哪裏的快感。初識Pandas 教程考慮到篇

2020-07-07 11:00:39

引言經常有一些專業的數據分析報告，會提到TGI指數，例如“基於某某TGI指數，我們發現某類用戶更偏好XX”。對於不熟悉TGI定義的同學，看到類似的話一定是雲山霧罩。這次，我們就來聊一聊什麼是TGI指數以及怎麼樣結合案例數據實現簡

2020-07-07 11:00:39

引言本文主要講的是Pandas中第二好用的函數——apply。爲什麼說第二好用呢？做人嘛，最重要的就是謙虛，做函數也是一樣的，而apply就是這樣一個優雅而謙虛的函數。我們單獨用一篇來爲apply樹碑立傳，原因有二，一是因

2020-07-07 11:00:39

API 消息發送流程 Kafka的Producer發送消息採用的是異步發送的方式。在消息發送的過程中，涉及到了兩個線程——main線程和Sender線程，以及一個線程共享變量——RecordAccumulator。main線程將消

2020-07-02 16:37:12

Java IO回憶字節跟字符區別(基礎圖)，InputStream、OutputStream、Writer、Reader 。字節流，分2種： a.輸入 b.輸出 2.字符流，也分2種： a.輸入(讀，即讀取) b.輸

2020-07-02 16:37:12

第1章 Spark SQL概述什麼是Spark SQL Spark SQL是Spark用來處理結構化數據的一個模塊，它提供了2個編程抽象：DataFrame和DataSet，來作爲分佈式SQL查詢的引擎。我們已經學習了Hive

2020-07-02 16:37:12

1. Kafka 概述 1. 定義 Kafka是一個分佈式的基於發佈/訂閱模式的消息隊列（Message Queue），主要應用於大數據實時處理領域。在流式計算中，Kafka一般用來緩存數據，Storm通過消費Kafka的數據進

2020-07-02 16:37:09

Spark Streaming概述 1. Spark Streaming是什麼 Spark Streaming用於流式數據的處理。Spark Streaming支持的數據輸入源很多，例如：Kafka、Flume、Twitter、Z

2020-07-02 16:37:09

API調用工作中更常用的絕對是通過HBase的API來調用實現類似HBase shell的操作。環境準備 IDEA + Maven + HBase <?xml version="1.0" encoding="UTF-8"?>

2020-06-24 04:41:23

1. 高可用在HBase中Hmaster負責監控RegionServer的生命週期，均衡RegionServer的負載，如果Hmaster掛掉了，那麼整個HBase集羣將陷入不健康的狀態，並且此時的工作狀態並不會維持太久。所以

2020-06-24 04:41:23

預備知識位運算知識位運算操作是由處理器支持的底層操作，底層硬件只支持01這樣的數字，因此位運算運行速度很快。儘管現代計算機處理器擁有了更長的指令流水線和更優的架構設計，使得加法和乘法運算幾乎與位運算一樣快，但是位運算消耗更少

2020-06-20 16:31:57

分佈式系統基礎知識一個tomcat打天下的時代，不能說完全淘汰了，在一個管理系統，小型項目中還經常使用，這並不過分，出於成本的考慮，這反而值得提倡。但如果要延伸到高併發場景下就必然要了解分佈式系統：分佈式系統特點分佈式系統

2020-06-20 10:31:51