這部分只要是說一些深度學習方面的面試總結。
機器學習擬合問題
如何判斷擬合情況
通過看訓練集誤差和驗證集誤差對比
欠擬合:訓練集和驗證集的誤差都較大,但相差很少
適度擬合:訓練集和驗證集的誤差都很低
過擬合:訓練集誤差較低,驗證集誤差比訓練集大得多
解決擬合問題
解決過擬合:
增加數據集的樣本數、降低模型複雜度、減少訓練時間、加正則化(L1/L2)、dropout、mini-batch、結合多種模型
解決欠擬合:模型特徵項不夠
添加多項式特徵、減少正則化參數
模型基礎
張量\數據流圖
張量在Python中就是數據類型(多維數組)
TensorFlow提供了專門處理高維稀疏數據的SparseTensor類,該類以鍵值對的形式表示高維稀疏數據,其包含indices、values、dense_shape這3個屬性,indices代表形狀爲[N, ndims]的Tensor實例, N爲非零元素的個數, ndims表示張量階數。values是一個形狀爲[N]的對象,用於保存indices中指定的非零元素。dense_shape是一個形狀爲[ndims]的Tensor實例,表示該稀疏張量對應稠密張量的形狀。
數據流圖是一個具有計算拓撲和內部結構的“殼”,實際上就是模型具體實現的數據變換過程。
優化器(性能指標)
激活、損失、優化
激活函數是負責神經元上下層之間數據的非線性映射
損失函數是表現模型輸出的推理值與真實值之間的差異函數
優化函數就是如何更好更快的找到最優參數求解