原创 Shuffle機制及優化

1. Shuffle機制 Map方法之後,Reduce方法之前的數據處理過程稱之爲Shuffle。 Shuffle階段主要做的事情: map方法處理後得到的一系列新的key/value會先經過Partioner的分區方法,標記

原创 面試題——數據倉庫的輸入輸出是什麼

你們的數倉的數倉的數據來源是哪些?數據的目的地又有哪些? 數據來源: 日誌採集系統、業務系統數據庫、爬蟲系統、財務系統、OA系統等 日誌採集系統:採集用戶在網站的停留時間,搜索的關鍵字以及喜好,數據存在file日誌文件中,數據

原创 Hadoop集羣搭建過程及配置文件總結

1. 配置文件總結 總共8個配置文件,4個site的xml文件,3個環境腳本,1個slaves 4個site文件:hdfs-site.xml,yarn-site.xml,mapred-site.xml,core-site.xml

原创 Kafka Channel的parseAsFlumeEvent

Kafka Channel的parseAsFlumeEvent的默認值爲true,即會爲對source來的數據進行解析,解析完會對數據前加前綴,前綴爲topic名,因此這種情況,下游會需要做額外的截取工作,所以,當不需要前綴名時

原创 面試題——數倉項目技術如何選型?

技術選型: 要提供兩套方案,紅色的一套,黑色的一套,提供對比 選擇的依據: 優先選擇紅色的那一套,因爲比較通用,而且熟悉 Flume解決日誌的採集,Kafka解決消息的分發和消峯,Sqoop用於HDFS和關係型數據庫進行數據的傳

原创 Hadoop的常用端口號

Hadoop的常用端口號 50070:namenode的web瀏覽器訪問端口號 50090:secondary namenode的web瀏覽器訪問端口號 50010:datanode的web瀏覽器訪問端口號,用於數據傳

原创 15優化器

一、什麼是優化器 pytorch的優化器: 管理並更新模型中可學習參數的值,使得模型輸出更接真實標籤 導數: 函數在指定座標軸上的變化率 方向導數: 指定方向上的變化率 梯度:一個向量,方向爲方向導數取得最大值的方向 二、o

原创 25GPU的使用

一、CPU與GPU 二、數據遷移 數據在GPU和CPU之間遷移: 數據遷移使用的方法:to()函數 進行遷移的數據:Tensor和Module 2.1 to函數 to函數:轉換數據類型/設備 tensor.to(*args,

原创 24模型微調(finetune)

一、Transfer Learning & Model Finetune 1.1 Transfer Learning Transfer Learning:機器學習分支,研究源域(source domain)的知識如何應用到目標域(

原创 RetinaNet:Focal Loss for Dense Object Detection

一、前言 目前的深度學習目標檢測器中,One-stage的精度始終落後於two-stage 本文發現其中心原因爲訓練過程中前景與背景類別極端的不平衡 爲解決該問題,本文重塑了標準交叉熵損失函數,即減少易分類樣本的權重來進行平衡,

原创 13權值初始化

一、梯度消失與爆炸 從上圖可知,每一網絡層輸出不能太大或太小,否則會導致梯度爆炸或者梯度消失 對權重W進行處理,使其方差爲1/n1/n1/n,則隱藏輸出的方差也爲1,這樣使得經過累乘,依然保持到一個很小的數 二、Xavier方

原创 27圖像分割

一、圖像分割 1.1 圖像分割是什麼? 圖像分割:將圖像每一個像素進行分類 1.2 圖像分割分類 圖像分割分類: 超像素分割:少量超像素代替大量像素,常用於圖像預處理 超像素:一個超像素由很多由相同性質的像素構成,如左上圖

原创 14損失函數

一、損失函數概念 1.1 損失函數是什麼? 圖中綠色方塊爲真實數據點,藍色直線爲線性迴歸模型的結果,可以看模型輸出點與真實數據點存在一定的差距,而這個差距常用損失函數來進行描述 損失函數:衡量模型輸出與真實標籤的差異 損失函數(

原创 機器學習知識點複習

機器學習知識點複習 1. 線性迴歸 1.1 什麼是線性迴歸? 迴歸算法是一種有監督學習算法,用於構建一個算法模型(函數)來表示特徵(自變量X)與標籤(因變量Y)之間的映射關係,當X與Y之間爲線性關係時,稱其爲線性迴歸模型,其表達式

原创 09模型創建步驟與nn.Module

一、網絡模型創建步驟 1.1 模型訓練步驟 數據 模型 損失函數 優化器 迭代訓練 1.2 模型創建步驟 1.3 模型構建兩要素: 1.4 模型創建示例——LeNet LeNet模型結構圖: LeNet計算圖: LeN