原创 課程安排

lc 210  把課程關係轉成有向圖,對圖進行深度優先遍歷,checked標記已經訪問過的節點,order保存訪問順序 也用到了回溯算法: class Solution: # checked 數組保存已經保存過的節點, vis

原创 LC146. LRU緩存

usedlist保存訪問的順序, capacity保存lru的容量,mapping保存映射的數組 class LRUCache: def __init__(self, capacity: int): self.

原创 前綴和的經典題目

leet560 求和等於 K 的子數組數量 (1)暴力解法 (2)前綴和 sum(i~j) = s(j) - s(i-1) = k s(j) - k = s(i-1) 保存三個狀態: sum,sum-k,cnt def subarr

原创 項目第2節 搭建開發環境

1. maven的安裝: 改阿里雲的鏡像倉庫 maven in 5 minutes:http://maven.apache.org/guides/getting-started/maven-in-five-minutes.html mav

原创 第二課 Spring入門

Spring 全家桶 Spring framework Spring Boot Spring Cloud Spring Cloud Data Flow Spring framework Spring Core:Ioc(面向對象), Aop

原创 第三課 Spring MVC

1. http:https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Overview 2. 三層架構: 表現層,業務層,數據訪問層 3. MVC: Model(模型層),View(視圖層),

原创 Shuffle

WordCount 遇到shuffle的算子,就會拆stage

原创 Spark Core

窄依賴:一個父RDD的partition的RDD只能被子RDD的partition最多使用一次 寬依賴:一個父RDD的partition的RDD會被子RDD的partition使用多次 coalesce vs repartition

原创 Spark運行架構

spark運行架構 要背下來 http://spark.apache.org/docs/latest/cluster-overview.html Spark Application: 1個driver + 多個executors A

原创 Spark SQL

爲什麼需要SQL? SQL用於數據統計分析,關係型數據庫存儲的數量有限制。 雲化: 關係型數據庫 =》 Hadoop UDF支持原有關係型數據庫內置的函數 簡單易用,無門檻轉行 支持sql的大數據框架: Hive: MapRedu

原创 IDEA+MAVEN開發Spark 詞頻統計

需要添加的依賴 <repositories> <repository> <id>cloudera</id> <name>cloudera</name>

原创 Spark介紹

1. MapReduce的侷限性 1)繁雜 本身只有map/reduce算子(沒有reduce的情況:mapjoin裏只有map,沒有reduce) 開發層面: low-level(低層次的) ; constrained(限制多

原创 Spark源碼安裝與部署

編譯步驟 安裝JDK 安裝maven (需要修改maven默認存儲位置) 安裝scala 定位到spark源碼 mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0 -Phi

原创 RDD介紹

RDD 讓開發者大大降低開發分佈式應用程序的門檻,提高執行效率。 RDD源碼:https://github.com/apache/spark/tree/master/core/src/main/scala/org/apache/spa

原创 大數據面試題1

自我介紹 20-30s,先準備好 大數據架構,如何做到精準一次,小文件規避(hadoop元數據存儲,讀寫流程),不要把東西落到具體的業務 hdfs裏面的路徑佔不佔meta的內存? 佔,不同版本不一樣 小文件會產生什麼樣的問