台部落G5Lorenzo

1. Shuffle機制 Map方法之後，Reduce方法之前的數據處理過程稱之爲Shuffle。 Shuffle階段主要做的事情： map方法處理後得到的一系列新的key/value會先經過Partioner的分區方法，標記

2020-06-21 21:08:52

你們的數倉的數倉的數據來源是哪些？數據的目的地又有哪些？數據來源：日誌採集系統、業務系統數據庫、爬蟲系統、財務系統、OA系統等日誌採集系統：採集用戶在網站的停留時間，搜索的關鍵字以及喜好，數據存在file日誌文件中，數據

2020-06-21 21:08:52

1. 配置文件總結總共8個配置文件，4個site的xml文件，3個環境腳本，1個slaves 4個site文件：hdfs-site.xml，yarn-site.xml，mapred-site.xml，core-site.xml

2020-06-21 21:08:52

Kafka Channel的parseAsFlumeEvent的默認值爲true，即會爲對source來的數據進行解析，解析完會對數據前加前綴，前綴爲topic名，因此這種情況，下游會需要做額外的截取工作，所以，當不需要前綴名時

2020-06-21 21:08:52

技術選型：要提供兩套方案，紅色的一套，黑色的一套，提供對比選擇的依據：優先選擇紅色的那一套，因爲比較通用，而且熟悉 Flume解決日誌的採集，Kafka解決消息的分發和消峯，Sqoop用於HDFS和關係型數據庫進行數據的傳

2020-06-21 21:08:52

Hadoop的常用端口號 50070：namenode的web瀏覽器訪問端口號 50090：secondary namenode的web瀏覽器訪問端口號 50010：datanode的web瀏覽器訪問端口號，用於數據傳

2020-06-21 21:08:52

一、什麼是優化器 pytorch的優化器: 管理並更新模型中可學習參數的值,使得模型輸出更接真實標籤導數: 函數在指定座標軸上的變化率方向導數: 指定方向上的變化率梯度：一個向量，方向爲方向導數取得最大值的方向二、o

2020-06-16 05:40:31

一、CPU與GPU 二、數據遷移數據在GPU和CPU之間遷移：數據遷移使用的方法：to()函數進行遷移的數據：Tensor和Module 2.1 to函數 to函數：轉換數據類型/設備 tensor.to(*args,

2020-06-16 05:40:31

一、Transfer Learning & Model Finetune 1.1 Transfer Learning Transfer Learning：機器學習分支，研究源域(source domain)的知識如何應用到目標域(

2020-06-16 05:40:31

一、前言目前的深度學習目標檢測器中，One-stage的精度始終落後於two-stage 本文發現其中心原因爲訓練過程中前景與背景類別極端的不平衡爲解決該問題，本文重塑了標準交叉熵損失函數，即減少易分類樣本的權重來進行平衡，

2020-06-16 05:40:30

一、梯度消失與爆炸從上圖可知，每一網絡層輸出不能太大或太小，否則會導致梯度爆炸或者梯度消失對權重W進行處理，使其方差爲1/n1/n1/n，則隱藏輸出的方差也爲1，這樣使得經過累乘，依然保持到一個很小的數二、Xavier方

2020-06-16 05:40:30

一、圖像分割 1.1 圖像分割是什麼？圖像分割：將圖像每一個像素進行分類 1.2 圖像分割分類圖像分割分類：超像素分割：少量超像素代替大量像素，常用於圖像預處理超像素：一個超像素由很多由相同性質的像素構成，如左上圖

2020-06-16 05:40:30

一、損失函數概念 1.1 損失函數是什麼？圖中綠色方塊爲真實數據點，藍色直線爲線性迴歸模型的結果，可以看模型輸出點與真實數據點存在一定的差距，而這個差距常用損失函數來進行描述損失函數：衡量模型輸出與真實標籤的差異損失函數(

2020-06-16 05:40:30

機器學習知識點複習 1. 線性迴歸 1.1 什麼是線性迴歸？迴歸算法是一種有監督學習算法，用於構建一個算法模型（函數）來表示特徵（自變量X）與標籤（因變量Y）之間的映射關係，當X與Y之間爲線性關係時，稱其爲線性迴歸模型，其表達式

2020-06-16 05:40:30

一、網絡模型創建步驟 1.1 模型訓練步驟數據模型損失函數優化器迭代訓練 1.2 模型創建步驟 1.3 模型構建兩要素： 1.4 模型創建示例——LeNet LeNet模型結構圖： LeNet計算圖： LeN

2020-06-16 05:40:30