原创 [每日問答]缺失值如何處理?

1.刪除 當某個變量或者某個樣本中缺失值佔比過大時,那麼我們可以認爲這一變量或者樣本沒有意義,可以直接刪除。 2.補全 (1)用平均值、中值、分位數、衆數、隨機值等替代。效果一般,因爲等於人爲增加了噪聲。 (2)用其他變量做預測模型來算

原创 [大數據]由點入面瞭解Hive

一:Hive內部表和外部表的區別?Hive 創建內部表時,會將數據移動到數據倉庫指向的路徑;若創建外部表,僅記錄數據所在的路徑,不對數據的位置做任何改變。在刪除表的時候,內部表的元數據和數據會被一起刪除,而外部表只刪除元數據,不刪除數據。

原创 [項目規範]JAVA WEB項目實施規範

一:前言在此將Java Web項目的實施規範做一個總結。二:需求階段需求階段主要包含需求分析和需求拆分,下面針對這兩塊做一個說明。1.需求分析需求分析是由PM撰寫初稿,然後PM,DEV,FE,QA四方共同review之後定稿的文檔。DEV

原创 [每日問答]特徵選擇和數據降維的區別?

特徵選擇:是從n個特徵中選擇d(d<n)個出來,而其它的n-d個特徵捨棄。所以新的特徵只是原來特徵的一個子集,沒有被捨棄的d個特徵沒有發生任何變化。它的缺點是會造成一些信息的丟失。 數據降維:它的思路是將原始高維特徵空間裏的點向一個低維

原创 [每日問答]特徵選擇有哪些方法?

Filter:過濾式,先對數據集進行特徵選擇,然後再訓練學習器。 (1)方差選擇法 使用方差選擇法,先要計算各個特徵的方差,然後根據閾值,選擇方差大於閾值的特徵。 (2)相關係數法 使用相關係數法,先要計算各個特徵對目標值的相關係數以及相

原创 [大數據]由點入面瞭解MapReduce

一:MR的工作原理是什麼?1.從HDFS讀取的文件進行split分片,split與block的對應關係可能是多對一,默認是一對一,每一片對應一個map。2.在經過mapper的運行後,我們得知mapper的輸出是這樣一個key/value

原创 [大數據]由點入面瞭解HDFS

一:HDFS各個模塊職責?1.HDFS Client: 系統使用者,調用HDFS API操作文件;與NN交互獲取文件元數據;與DN交互進行數據讀寫, 寫數據時文件切分由Client完成。2.Namenode:Master節點(也稱元數據節

原创 [大數據]數據倉庫好文分享

1.深入對比數據倉庫模式:Kimball vs Inmonhttps://segmentfault.com/a/11900000062559542.如何通過數據驅動業務發展http://36kr.com/p/5092209.html3.數

原创 [每日問答]邏輯迴歸爲什麼使用Sigmod作爲激活函數?

1.數學推導 2.Sigmod函數優點 輸出範圍有限,數據在傳遞的過程中不容易發散。 輸出範圍爲(0,1),所以可以用作輸出層,輸出表示概率。 抑制兩頭,對中間細微變化敏感,對分類有利。 參考文獻 1.https://www.zhihu

原创 [每日問答]離散化的作用是什麼?

一:定義 離散化指把連續型數據切分爲若干“段”,是數據分析中常用的手段。切分的原則有等距,等頻,優化,或根據數據特點而定。 二:具體方式 1.等距將連續型變量的取值範圍均勻劃成n等份,每份的間距相等。例如,客戶訂閱刊物的時間是一個連

原创 [每日問答]生成方法和判別方法有什麼區別?

生成方法:由數據學習聯合概率分佈P(X,Y),然後求出條件概率分佈P(Y|X)作爲預測的模型即生成模型。典型的生成模型有樸素貝葉斯和隱馬爾可夫模型。 判別方法:由數據直接學習決策函數f(X)或者條件概率分佈P(Y|X)作爲預測模型即判別模

原创 [每日問答]ID3,C4.5,CART的區別是什麼?

ID3:根據“最大信息增益”原則選擇劃分當前數據集最好的特徵,按照特徵的所有取值進行劃分。一旦按照某種特徵進行切分後,該特徵在之後的計算中就不再起作用。C4.5:ID3的劃分原則有個缺點,它一般會選擇屬性值較多的特徵,C4.5使用“信息增

原创 [每日問答]包含L1正則化項的目標函數如何求導?

1.近端梯度下降法(Proximal Gradient Decent ) 2.交替方向乘子法(Alternating Direction Method of Multipliers,ADMM) http://mullover.me/20

原创 [每日問答]正負樣本不平衡應該怎麼處理?

1.過採樣 (1)過採樣方法通過增加少數類樣本來提高少數類的分類性能,最簡單的辦法是簡單複製少數類樣本,缺點是可能導致過擬合,沒有給少數類增加任何新的信息。 (2)SMOTE算法:設置向上採樣的倍率爲N,即對每個少數類樣本都需要產生對應的