原创 spark運行模式 standlone mesos yarn

不同的運行模式的主要區別就是他們有自己特定的資源分配和任務調度模塊,這些模塊用來執行實際的計算任務。 常用spark-submit提交spark application 格式如下 submit可選參數如下:     standalon

原创 linux 的grep操作以及Linux自帶wc命令

使用spark進行wordcount後可以通過Linux自帶的wc命令進行驗證 比如 spark命令是求出某個文檔中spark的數量   使用wc驗證    grep spark README.md | wc   求出README.md中

原创 Linux下的截圖工具

可能有一個困擾你多時的問題,當你想要獲取一張屏幕截圖向開發者反饋問題,或是在 Stack Overflow 尋求幫助時,你可能缺乏一個可靠的屏幕截圖工具去保存和發送截圖。在 GNOME 中有一些這種類型的程序和 shell 拓展工具。這裏

原创 python的gc(Garbage collection)

小整數池[-5,257)共用對象,長駐內存 python的intern機制  共用同一段內存(單個單詞,不可修改,默認開啓intern機制) Java c#都有垃圾回收機制 引用計數簡單,但維護引用消耗資源,出現循環引用的時候出現無法回

原创 pep8規則 Python的書寫規範

import 的時候   順序如下: 1先標準庫   2   相關第三方庫  3  本地庫  之間用空行隔開     python默認使用utf-8格式

原创 Scala

一門運行於JVM並將面向對象和函數編程完美結合的語言。   在Scala中main函數需要存在於object對象中 函數體最後一行的值就是整個函數的返回值。當函數不帶參數時候可以省略括號  調用函數可以直接使用函數名即可 雙箭頭=>的使

原创 spark補充

每個應用在一個WorkerNode上只會有一個Executor。每個partition都會由一個task負責運行,有多少partition就有多少task。 DAGScheduler給TaskScheduler發送任務時候以stage爲單

原创 深入解析spark RDD

彈性分佈式數據集  RDD(只讀,可分區)  這個數據集的部分或者全部可以緩存在內存中。 所謂彈性,是指內存不夠時可以與磁盤進行交換。 RDD 作爲數據結構,本質上是一個只讀的分區記錄集合。一個rdd可以包含多個分區,每個分區就是一個數據

原创 機器學習通用流程

1定義問題,收集數據 2選擇衡量成功的指標   精度?召回率? 3確定評估方法(留出驗證集,K折,重複K折) 4準備數據(數據處理,特徵工程) 5開發比基準更好而模型 6擴大模型規模:開發過擬合的模型(理想的模型是剛好在欠擬合和過擬合的邊

原创 深度學習正則化

以前總是不瞭解什麼是正則化   今天看書 算是有點體會   根據阿卡姆剃刀原理,如果一件事情有兩種解釋,那麼相對簡單的那個解釋更可能是正確的解釋,即假設更少的那個。 這個原理用在神經網絡中,給定一些訓練數據和一種網絡架構,很多組權重值(即

原创 spark的RDD

spark的RDD是一個分佈式對象集合,每個RDD可以分爲多個片(partitions)。分片可以在集羣環境的不同節點上計算。 創建RDD的兩種方式:加載外部數據集或者在驅動程序中部署對象集合。 1通過加載一個文本文件作爲RDD 2 現

原创 python生成器

a=[x*2 for x in range(10)]  生成一整個列表 a=(x*2 for x in range(10))   生成一個生成器  使用next 可以取出相關生成的數據  這樣佔據的內存空間更少   def createN

原创 spark基礎理論學習

上面爲spark的相關術語 通過下面的spark作業調度系統瞭解spark相關術語之間的關係 spark的容錯性能依靠lineagelai完成    

原创 內存管理和垃圾回收機制

垃圾回收機制是每個公司進行技術面試必問的問題之一,掌握垃圾回收機制至關重要,下面是某篇博客中的內容 感覺不錯,單獨拉出來作爲保存,請大家關注原鏈接:  https://blog.csdn.net/rabbit_in_android/art

原创 深度學習用於計算機視覺

密集連接層(精度97.8%)------>卷積神經網絡(99.3%)   兩者的區別在於:Dense層從特徵空間學到的是全局模式,而卷積層學到時是局部模式 1 卷積神經網絡學到的模式具有平移不變性(視覺世界根本上來說就具有平移不變性),