1. 負採樣方法
高頻詞被採樣的概率大,低頻詞被採樣的概率小
2. CBOW模型
在這裏插入圖片描述
3. Skip-Gram模型
上下文預測當前詞,所以要最後一起更新
- CBOW
輔助向量,並不是真正的向量
高頻詞被採樣的概率大,低頻詞被採樣的概率小
在這裏插入圖片描述
上下文預測當前詞,所以要最後一起更新
• (1)收集數據 • 提供的文本文件 • (2)準備數據 • 格式轉換 • 將源文件格式化處理爲可處理的向量,如:手寫識別系統 • 處理源文件格式,比如存在大量空格、雜亂符號等,需要進行去除、重