機器學習面試題準備

數據處理:如何處理缺失數據(missing value)? 各種處理方法有什麼利弊?
數據處理:如何將描述變量(categorical variables)轉爲連續變量(continuous variables)?
如何處理有序變量?
如何處理無序變量?
數據處理:如何進行選擇特徵選擇?如何進行數據壓縮?
特徵選擇:包裹式,過濾式,嵌入式
數據壓縮:主成分分析,自編碼等
模型解釋: 試解釋什麼是欠擬合與過擬合?如何應對這兩種情況?
模型解釋: 什麼是偏差與方差分解(Bias Variance Decomposition)?與欠擬合和過擬合有什麼聯繫?
評估模型一般有什麼手段?
分類模型評估方法?
迴歸問題評估方法?
數據不均衡的評估方法?
深度學習是否比其他學習模型都好?爲什麼?
在只有少量的有標籤數據的情況下,如何構建一個反保險欺詐系統?
如果面試者回答先用監督學習來做,那麼我們可能問:
這種情況下數據是不均衡的,你是採用過採樣還是欠採樣?如何調整代價函數和閾值?
如果面試者提到了集成學習,那麼也會追問一下問什麼集成學習適合數據不平衡。
如果面試者回答用無監督學習,那我們可能會問:
比如使用One-class SVM?那麼我們可能會追問一下SVM相關的問題,比如什麼是最大間隔分類器啊什麼是Kernel,如何選擇Kernel等。
爲什麼K-Means不適合異常值檢測?K-Means和GMM是什麼關係?是否可以用FMM來直接擬合異常值。
如何可以得到無監督學習中的分類規則?

  1. 讓面試者有所收穫 & 如何準備機器學習面試

面試不該是一場單純的考試,在參加面試的過程中,也是一個學習過程。拋磚引玉,對於機器學習的崗位面試我有幾點小建議:

5.1. 根據崗位,準備一份項目策劃書。
這個乍聽下來有點虛,但我曾無數次使用這個小技巧得到良好的面試反饋和機會。假設你今天面試的崗位是我提到的保險公司的反詐騙組,那麼如果你可以寫一個如何使用機器學習進行反詐騙的項目策劃書。這個過程對於面試者也是一個練習: a. 閱讀論文和新聞收集材料的能力 b. 總結分析的能力 c. 總結的能力。

以我曾經面試過的一個人力資源相關的崗位爲例,我準備了一份如何用機器學習來進行員工離職預測的策劃書(中間省略掉了幾頁並馬賽克處理了敏感的地方):
在策劃書中,你可以分析項目需求,提出相關解法,並建議後續計劃和列出相關文獻。這樣的行爲不僅可以讓僱主看到你的誠意,並看到你的的領域知識和獨立分析問題能力。

在適當的時機(比如開始面試的時候或者談到崗位職責的時候),你拿出準備好的策劃書,開始談你的思路。這種做法我曾做過幾次,效果都很驚豔,因爲反被動爲主動,從被考察變成了講解你所瞭解的知識。作爲一個面試官,如果被面試者能做到這個程度,我會在內心對錄取他比較有信心。

5.3. 確保自己對基本的概念有所瞭解
對基本的數據處理方法有所瞭解
對基本的分類器模型有所瞭解並有所使用(調包),大概知道什麼情況使用什麼算法較好
對基本的評估方法有所掌握,知道常見評估方法的優劣勢
有基本的編程能力,能夠獨立的完成簡單的數據分析項目
有基本的數據挖掘能力,可以對模型進行調參並歸納發現

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章