台部落沐沐余风

1、經驗誤差與過擬合錯誤率(error rate)：分類錯誤的樣本數佔總樣本數的比例。例如：m個樣本中有a個樣本分類錯誤，錯誤率=a/m，準確度=1-a/m 誤差(error)：預測輸出與樣本真實輸出之間的差異訓練誤差（tra

2018-09-02 23:28:12

Hive 參數 hive.exec.max.created.files •說明：所有hive運行的map與reduce任務可以產生的文件的和 •默認值:100000 hive.exec.dynamic.partition •說明

2018-09-02 23:28:07

參考鏈接：教你如何迅速秒殺99%的海量數據處理面試題類型一海量數據，出現次數最多or前K 分而治之/Hash映射 + Hash統計 + 堆/快速/歸併排序 1、海量日誌數據，提取出某日訪問百度次數最多的那個IP。 IP有32位，共有

2018-09-02 23:28:05

1、基本術語數據集樣本屬性or特徵樣本空間預測離散值–分類，二分類，多分類預測連續值–迴歸監督學習：分類、迴歸無監督學習：聚類泛化能力：generalization，模型適用於新樣本的能力通常假設全樣本服

2018-09-02 23:28:05

1、聚類任務無監督學習問題定義 2、性能度量（1）外部指標 Jaccard係數 FM指數 Randy指數（2）內部指標 DB指數 Dunn指數 3、距離計算基本性質閔可夫斯基距離歐式距離有序屬性無序屬性 4

2018-09-02 23:28:05

美團 20*2+30*2+2*30 編程題：越長越大，所以有12組成。 s%3==0 則結果爲 212121… s%3==1 則結果爲1212121…1 s%3==2，則結果爲212121…2 void maxNum() {

2018-09-02 23:28:05

很好的圖，mark一下

2018-09-02 23:28:05

1、決策樹 1）常見的決策樹模型決策樹（ID3，C4.5，CART）原理，信息增益公式推導，信息增益比的引入原因，Gini指數的用途和原理 2）決策樹怎麼避免過擬合。（預剪枝和後剪枝，然後講了下兩種剪枝的過程） 2、聚類 1）

2018-09-02 23:28:05

360 大數據開發一面：自我介紹兩段實習經歷家寬預測怎麼做的，拓展問了決策樹，cart用什麼選擇特徵？（這個忘了，基尼係數）機器學習選股，svm，adaboost。有沒有上線之類的（沒有，決策權不在我）說了JD算法比

2018-09-02 23:28:05

商湯科技選擇題5*2 填空題5*4 編程題20+20+30 選擇題填空題基本是靠智力和數據結構，還算ok。但是後面兩道編程題簡直給跪啊感覺智商完全不夠用。。留個紀念，說不定哪天有靈感了

2018-09-02 23:28:04

1、基本形式線性模型（linear model）：試圖學得一個通過屬性的線性組合來進行預測的函數由d個屬性來描述的示例x=(x1;x2;...;xd) ，線性模型可表示爲： f(x)=w1x1+w2x2,...+wdxd+b 用

2018-09-02 23:27:59

1、基本流程西瓜問題的決策過程：根結點包含樣本全集。葉結點對應決策結果。（類別標記爲樣例中最多的類別）其他結點對應屬性測試，每個結點包含的樣本集合根據屬性測試的結果被劃分到不同的子結點。 2、劃分選擇即如何選擇最優劃分

2018-09-02 23:27:57

兩大角色： DataNode：負責管理用戶的文件數據塊 NameNode：負責管理整個文件系統的元數據 NameNode的工作機制職責： 1）客戶端請求的響應 2）元數據的管理（查詢，修改）元數據的存儲：內存中有一份完整的

2018-09-02 23:27:54

網易遊戲數組中有兩個數出現次數爲奇數，找出這兩個數全排列數組中有一個數出現次數大於n/2，找出這個數如果生女孩繼續生直到生男孩，問最後的男女比例 bigo 看來這家公司比較喜歡考數學，概統要好好學啊考隨機數最大和連續子

2018-09-02 23:27:53

摩拜單車編程題三道 1、字符串思路：移動A字符串，找出兩個字符串不相等的位數。（前後可以填充爲跟B完全一樣） void minDiff() { string A, B; getline(cin,A); get

2018-09-02 23:27:53