1. 负采样方法
高频词被采样的概率大,低频词被采样的概率小
2. CBOW模型
在这里插入图片描述
3. Skip-Gram模型
上下文预测当前词,所以要最后一起更新
- CBOW
辅助向量,并不是真正的向量
高频词被采样的概率大,低频词被采样的概率小
在这里插入图片描述
上下文预测当前词,所以要最后一起更新
• (1)收集數據 • 提供的文本文件 • (2)準備數據 • 格式轉換 • 將源文件格式化處理爲可處理的向量,如:手寫識別系統 • 處理源文件格式,比如存在大量空格、雜亂符號等,需要進行去除、重