原创 第二章 模型評估與選擇

1、經驗誤差與過擬合 錯誤率(error rate):分類錯誤的樣本數佔總樣本數的比例。 例如:m個樣本中有a個樣本分類錯誤,錯誤率=a/m,準確度=1-a/m 誤差(error):預測輸出與樣本真實輸出之間的差異 訓練誤差(tra

原创 Hive學習--參數配置

Hive 參數 hive.exec.max.created.files •說明:所有hive運行的map與reduce任務可以產生的文件的和 •默認值:100000 hive.exec.dynamic.partition •說明

原创 面試題-海量數據處理問題

參考鏈接:教你如何迅速秒殺99%的海量數據處理面試題 類型一 海量數據,出現次數最多or前K 分而治之/Hash映射 + Hash統計 + 堆/快速/歸併排序 1、海量日誌數據,提取出某日訪問百度次數最多的那個IP。 IP有32位,共有

原创 第一章 緒論

1、基本術語 數據集 樣本 屬性or特徵 樣本空間 預測離散值–分類,二分類,多分類 預測連續值–迴歸 監督學習:分類、迴歸 無監督學習:聚類 泛化能力:generalization,模型適用於新樣本的能力 通常假設全樣本服

原创 第九章 聚類

1、聚類任務 無監督學習 問題定義 2、性能度量 (1)外部指標 Jaccard係數 FM指數 Randy指數 (2)內部指標 DB指數 Dunn指數 3、距離計算 基本性質 閔可夫斯基距離 歐式距離 有序屬性 無序屬性 4

原创 筆試10.11

美團 20*2+30*2+2*30 編程題: 越長越大,所以有12組成。 s%3==0 則結果爲 212121… s%3==1 則結果爲1212121…1 s%3==2,則結果爲212121…2 void maxNum() {

原创 Hive學習

很好的圖,mark一下

原创 機器學習面試問題彙總

1、決策樹 1)常見的決策樹模型 決策樹(ID3,C4.5,CART)原理,信息增益公式推導,信息增益比的引入原因,Gini指數的用途和原理 2)決策樹怎麼避免過擬合。 (預剪枝和後剪枝,然後 講了下兩種剪枝的過程) 2、聚類 1)

原创 面試9.25

360 大數據開發 一面: 自我介紹 兩段實習經歷 家寬預測怎麼做的,拓展問了決策樹,cart用什麼選擇特徵?(這個忘了,基尼係數) 機器學習選股,svm,adaboost。有沒有上線之類的(沒有,決策權不在我) 說了JD算法比

原创 筆試10.12

商湯科技 選擇題5*2 填空題5*4 編程題20+20+30 選擇題填空題基本是靠智力和數據結構,還算ok。 但是後面兩道編程題簡直給跪啊 感覺智商完全不夠用。。留個紀念,說不定哪天有靈感了

原创 第三章 線性模型

1、基本形式 線性模型(linear model):試圖學得一個通過屬性的線性組合來進行預測的函數 由d個屬性來描述的示例x=(x1;x2;...;xd) ,線性模型可表示爲: f(x)=w1x1+w2x2,...+wdxd+b 用

原创 第四章 決策樹

1、基本流程 西瓜問題的決策過程: 根結點包含樣本全集。 葉結點對應決策結果。(類別標記爲樣例中最多的類別) 其他結點對應屬性測試,每個結點包含的樣本集合根據屬性測試的結果被劃分到不同的子結點。 2、劃分選擇 即如何選擇最優劃分

原创 HDFS工作機制

兩大角色: DataNode:負責管理用戶的文件數據塊 NameNode:負責管理整個文件系統的元數據 NameNode的工作機制 職責: 1)客戶端請求的響應 2)元數據的管理(查詢,修改) 元數據的存儲: 內存中有一份完整的

原创 其他聽說的筆試面試題

網易遊戲 數組中有兩個數出現次數爲奇數,找出這兩個數 全排列 數組中有一個數出現次數大於n/2,找出這個數 如果生女孩繼續生直到生男孩,問最後的男女比例 bigo 看來這家公司比較喜歡考數學,概統要好好學啊 考隨機數 最大和連續子

原创 筆試10.19

摩拜單車 編程題三道 1、字符串 思路:移動A字符串,找出兩個字符串不相等的位數。(前後可以填充爲跟B完全一樣) void minDiff() { string A, B; getline(cin,A); get