原创 SparkStreaming緩存、持久化機制、Checkpoint機制

北風網spark學習筆記 緩存、持久化機制 與RDD類似,Spark Streaming也可以讓開發人員手動控制,將數據流中的數據持久化到內存中。對DStream調用persist()方法,就可以讓Spark Streaming自動

原创 SparkConf、spark-submit以及spark-defaults.conf

北風網spark學習筆記 SparkConf、spark-submit以及spark-defaults.conf spark-submit腳本會自動加載conf/spark-defaults.conf文件中的配置屬性,並傳遞給我們的

原创 Spark術語

北風網spark學習筆記 Spark術語 術語 介紹 Application spark應用程序,說白了,就是用戶基於spark api開發的程序,一定是通過一個有main方法的類執行的,比如java開發spark,就是

原创 Spark作業三種模式提交

北風網spark學習筆記 Spark作業三種模式提交 local模式提交spark作業 spark作業運行集羣,有兩種部署方式,一種是Spark Standalone集羣,還有一種是YARN集羣+Spark客戶端 提交spark作業

原创 standalone部署細節以及相關參數

北風網spark學習筆記 standalone部署細節以及相關參數 配置集羣中的worker節點 如果想將某臺機器部署成standalone集羣架構中的worker節點(會運行worker daemon進程)那麼你就必須在那臺機器上

原创 Spark集羣概覽

北風網spark學習筆記 Spark集羣概覽 Spark集羣架構 spark程序每次提交就是一個作業,提交到多個executor進程上去,多個進程並行運行作業 第一步 一段程序,spark代碼,裏面肯定是有main方法的,比如說

原创 Spark Standalone集羣架構

北風網spark學習筆記 Spark Standalone集羣架構 SparkStandalone集羣 集羣管理器,cluster manager:Master進程,工作節點:Worker進程 搭建了一套Hadoop集羣(HDFS+

原创 standalone多作業資源調度

北風網spark學習筆記 standalone多作業資源調度 standalone集羣對於同時提交上來的多個作業,僅僅支持FIFO調度策略,也就是先入先出 默認情況下,集羣對多個作業同時執行的支持是不好的,沒有辦法同時執行多個作業,

原创 Python高級語法

Python高級語法 內置類型 list:動態的,大小可改變 tuple:不可變,一旦創建不能修改 dict:鍵值映射 set :可變的、無序的、有限的集合,元素唯一 高級語法 迭代器 迭代器是一個實現了迭代器協議的容器對象,主要

原创 centos安裝realvnc

下載vncserver 下載vncviewer 用root登錄系統 執行安裝: $yum install xterm $rpm -ivh https://www.realvnc.com/download/file/vnc.files

原创 spark實戰-移動端app訪問流量日誌分析

綜合案例-移動端app訪問流量日誌分析 移動端app訪問流量日誌分析 背景 如果你是在一個互聯網公司,然後你的公司現在也在做移動互聯網,做了一個手機app,那麼你的手機app的用戶,每次進行點擊,或者是一些搜索操作的時候,都會跟你的

原创 Java知識點——多線程基礎

多線程 通過繼承Thread類實現多線程 Thread類存放在java.lang類庫中,無需顯示加載 Thread類中,已經定義了run()方法,如果想要實現多線程,必須定義自己的子類,繼承與Thread類,同時要重寫Thread類的

原创 Java知識點-Java常用類庫與異常的捕獲與處理

Java常用類庫 String類 String str1 = "hello world!"; String str2 = "hello world!"; Boolean result1 = (str1 == str2); String

原创 Java知識點2-抽象類

抽象類 包含抽象方法的類,就是抽象類,所謂抽象方法,就是隻聲明而爲實現的方法。 抽象類的規則如下: 抽象類和抽象方法都必須使用abstract關鍵字修飾 抽象類不能直接實例化,也就是不能直接使用new關鍵字去產生對象 在抽象類中,定

原创 決策樹python實現

決策樹python實現 算法構造 算法優缺點 優點:計算複雜度不高,輸出結果易於理解,對中間值的缺失不敏感,可以處理不相關特徵數據。 缺點:可能會產生過度匹配問題。 適用數據類型:數值型和標稱型。 算法流程 收集數據:可以使用任