台部落IT_NEU

不同的運行模式的主要區別就是他們有自己特定的資源分配和任務調度模塊，這些模塊用來執行實際的計算任務。常用spark-submit提交spark application 格式如下 submit可選參數如下： standalon

2018-12-07 14:48:57

使用spark進行wordcount後可以通過Linux自帶的wc命令進行驗證比如 spark命令是求出某個文檔中spark的數量使用wc驗證 grep spark README.md | wc 求出README.md中

2018-12-07 14:48:57

可能有一個困擾你多時的問題，當你想要獲取一張屏幕截圖向開發者反饋問題，或是在 Stack Overflow 尋求幫助時，你可能缺乏一個可靠的屏幕截圖工具去保存和發送截圖。在 GNOME 中有一些這種類型的程序和 shell 拓展工具。這裏

2018-12-07 14:48:57

小整數池[-5,257）共用對象，長駐內存 python的intern機制共用同一段內存（單個單詞，不可修改，默認開啓intern機制） Java c#都有垃圾回收機制引用計數簡單，但維護引用消耗資源，出現循環引用的時候出現無法回

2018-12-07 14:48:57

import 的時候順序如下： 1先標準庫 2 相關第三方庫 3 本地庫之間用空行隔開 python默認使用utf-8格式

2018-12-07 14:48:57

一門運行於JVM並將面向對象和函數編程完美結合的語言。在Scala中main函數需要存在於object對象中函數體最後一行的值就是整個函數的返回值。當函數不帶參數時候可以省略括號調用函數可以直接使用函數名即可雙箭頭=>的使

2018-12-07 14:48:57

每個應用在一個WorkerNode上只會有一個Executor。每個partition都會由一個task負責運行，有多少partition就有多少task。 DAGScheduler給TaskScheduler發送任務時候以stage爲單

2018-12-07 14:48:57

彈性分佈式數據集 RDD(只讀，可分區) 這個數據集的部分或者全部可以緩存在內存中。所謂彈性，是指內存不夠時可以與磁盤進行交換。 RDD 作爲數據結構，本質上是一個只讀的分區記錄集合。一個rdd可以包含多個分區，每個分區就是一個數據

2018-12-07 14:48:57

1定義問題，收集數據 2選擇衡量成功的指標精度？召回率？ 3確定評估方法（留出驗證集，K折，重複K折） 4準備數據（數據處理，特徵工程） 5開發比基準更好而模型 6擴大模型規模：開發過擬合的模型（理想的模型是剛好在欠擬合和過擬合的邊

2018-11-30 15:31:33

以前總是不瞭解什麼是正則化今天看書算是有點體會根據阿卡姆剃刀原理，如果一件事情有兩種解釋，那麼相對簡單的那個解釋更可能是正確的解釋，即假設更少的那個。這個原理用在神經網絡中，給定一些訓練數據和一種網絡架構，很多組權重值（即

2018-11-30 15:31:33

spark的RDD是一個分佈式對象集合，每個RDD可以分爲多個片（partitions）。分片可以在集羣環境的不同節點上計算。創建RDD的兩種方式：加載外部數據集或者在驅動程序中部署對象集合。 1通過加載一個文本文件作爲RDD 2 現

2018-11-30 15:31:33

a=[x*2 for x in range(10)] 生成一整個列表 a=(x*2 for x in range(10)) 生成一個生成器使用next 可以取出相關生成的數據這樣佔據的內存空間更少 def createN

2018-11-30 15:31:33

上面爲spark的相關術語通過下面的spark作業調度系統瞭解spark相關術語之間的關係 spark的容錯性能依靠lineagelai完成

2018-11-30 15:31:33

垃圾回收機制是每個公司進行技術面試必問的問題之一，掌握垃圾回收機制至關重要，下面是某篇博客中的內容感覺不錯，單獨拉出來作爲保存，請大家關注原鏈接： https://blog.csdn.net/rabbit_in_android/art

2018-11-30 15:31:33

密集連接層（精度97.8%）------>卷積神經網絡（99.3%）兩者的區別在於：Dense層從特徵空間學到的是全局模式，而卷積層學到時是局部模式 1 卷積神經網絡學到的模式具有平移不變性（視覺世界根本上來說就具有平移不變性），

2018-11-30 15:31:33