台部落七月知上

1.刪除當某個變量或者某個樣本中缺失值佔比過大時，那麼我們可以認爲這一變量或者樣本沒有意義，可以直接刪除。 2.補全（1）用平均值、中值、分位數、衆數、隨機值等替代。效果一般，因爲等於人爲增加了噪聲。（2）用其他變量做預測模型來算

2018-08-27 13:53:58

一：Hive內部表和外部表的區別？Hive 創建內部表時，會將數據移動到數據倉庫指向的路徑；若創建外部表，僅記錄數據所在的路徑，不對數據的位置做任何改變。在刪除表的時候，內部表的元數據和數據會被一起刪除，而外部表只刪除元數據，不刪除數據。

2018-08-27 13:53:58

一：前言在此將Java Web項目的實施規範做一個總結。二：需求階段需求階段主要包含需求分析和需求拆分，下面針對這兩塊做一個說明。1.需求分析需求分析是由PM撰寫初稿，然後PM，DEV，FE，QA四方共同review之後定稿的文檔。DEV

2018-08-27 13:53:58

特徵選擇：是從n個特徵中選擇d(d<n)個出來，而其它的n-d個特徵捨棄。所以新的特徵只是原來特徵的一個子集，沒有被捨棄的d個特徵沒有發生任何變化。它的缺點是會造成一些信息的丟失。數據降維：它的思路是將原始高維特徵空間裏的點向一個低維

2018-08-27 13:53:58

Filter：過濾式，先對數據集進行特徵選擇，然後再訓練學習器。（1）方差選擇法使用方差選擇法，先要計算各個特徵的方差，然後根據閾值，選擇方差大於閾值的特徵。（2）相關係數法使用相關係數法，先要計算各個特徵對目標值的相關係數以及相

2018-08-27 13:53:58

一：MR的工作原理是什麼？1.從HDFS讀取的文件進行split分片，split與block的對應關係可能是多對一，默認是一對一，每一片對應一個map。2.在經過mapper的運行後，我們得知mapper的輸出是這樣一個key/value

2018-08-27 13:53:58

一：HDFS各個模塊職責？1.HDFS Client: 系統使用者，調用HDFS API操作文件；與NN交互獲取文件元數據；與DN交互進行數據讀寫, 寫數據時文件切分由Client完成。2.Namenode：Master節點（也稱元數據節

2018-08-27 13:53:58

1.深入對比數據倉庫模式：Kimball vs Inmonhttps://segmentfault.com/a/11900000062559542.如何通過數據驅動業務發展http://36kr.com/p/5092209.html3.數

2018-08-27 13:53:58

1.數學推導 2.Sigmod函數優點輸出範圍有限，數據在傳遞的過程中不容易發散。輸出範圍爲(0,1)，所以可以用作輸出層，輸出表示概率。抑制兩頭，對中間細微變化敏感，對分類有利。參考文獻 1.https://www.zhihu

2018-08-27 13:53:58

一：定義離散化指把連續型數據切分爲若干“段”，是數據分析中常用的手段。切分的原則有等距，等頻，優化，或根據數據特點而定。二：具體方式 1.等距將連續型變量的取值範圍均勻劃成n等份，每份的間距相等。例如，客戶訂閱刊物的時間是一個連

2018-08-27 13:53:58

生成方法：由數據學習聯合概率分佈P(X,Y)，然後求出條件概率分佈P(Y|X)作爲預測的模型即生成模型。典型的生成模型有樸素貝葉斯和隱馬爾可夫模型。判別方法：由數據直接學習決策函數f(X)或者條件概率分佈P(Y|X)作爲預測模型即判別模

2018-08-27 13:53:58

ID3：根據“最大信息增益”原則選擇劃分當前數據集最好的特徵，按照特徵的所有取值進行劃分。一旦按照某種特徵進行切分後，該特徵在之後的計算中就不再起作用。C4.5：ID3的劃分原則有個缺點，它一般會選擇屬性值較多的特徵，C4.5使用“信息增

2018-08-27 13:53:57

1.近端梯度下降法（Proximal Gradient Decent ） 2.交替方向乘子法（Alternating Direction Method of Multipliers，ADMM） http://mullover.me/20

2018-08-27 13:53:57

1.過採樣（1）過採樣方法通過增加少數類樣本來提高少數類的分類性能，最簡單的辦法是簡單複製少數類樣本，缺點是可能導致過擬合，沒有給少數類增加任何新的信息。（2）SMOTE算法：設置向上採樣的倍率爲N，即對每個少數類樣本都需要產生對應的

2018-08-27 13:53:57

2018-08-27 13:53:57