原创 2、TF-IDF和BM25計算文本相似度
這兩者計算的都是文檔和文本之間的相似度,如果是兩個短文本貌似也可以。 1、TF-IDF = TF * IDF 假設文本是“我怎麼這麼帥氣”,4個詞,第一個詞“我”, 文檔1中一共有10個詞,“我”有2次,這個詞的詞頻都是2,這
原创 阿里few shot learning文章的個人理解
先貼結構圖: 1、每次C類,每類K樣本,剩下的是測試集。 2、encoder層是BiLSTM+attention,得到編碼向量,假設隱含層個數是96個,句子長度是30,暫不考慮batch_size,那麼每個字的隱含層就是1*192向量,
原创 bert模型裁剪及標籤平滑在短文本意圖識別中的效果分析
1、bert網絡模型base有12層, 隱含層大小:H=768, 詞向量參數矩陣:W = V*H,V大概在兩萬多, 12個attention head, 每個投的QKV矩陣:H * (H/12) 前饋層參數量是H * 4H = 768 *
原创 激活函數快速理解
1、sigmoid函數 所以啊很明顯,會導
原创 阿里、騰訊、滴滴等社招面試問題整理
已入職阿里,騰訊總監面聊得不開心,掛,也拿到滴滴offer 1、爲何會梯度消失和爆炸: 消失:BPTT時,多個激活函數導數的相乘導致 解決:LSTM、BN、RELU 爆炸:權重函數初始化過大,
原创 小蜜團隊萬字長文《讀後簡略概括》
1、對話系統主要分爲三類:閒聊型+任務導向型+問答型 閒聊型:就是瞎聊,想聊啥就 聊啥 任務導向型:考慮多輪對話,根據對話的不同狀態和槽位值進行回覆策略的選擇 問答型:一問一答,識別詢問者的意圖,從知識庫
原创 1、word2vec
1、以前怎麼計算兩句話的相似度呢?就是詞袋模型 我很帥 》[1(我),1(帥),1(很),0(不)] 我不帥 》[1,1,0,1] 2、現在怎麼計算呢?就是把每個字轉換成一個向量(也可以把一句話變成一個向量
原创 SGD和Adam(轉載)
https://blog.csdn.net/weixin_42398658/article/details/84525917 另在一篇文章中,我們介紹了隨機梯度下降的細節以及如何解決陷入局部最小值或鞍點等問題。在這篇文章中,我們看看另一個
原创 微軟小冰主要框架和流程及相關技術
主要是看了知乎上面一位作者寫的解析,然後自己在看的過程中順帶記錄一下,流程差不多,自己寫的話複習比較直觀快速 1、Query是用戶輸入的問題 2、DM(對話管理模塊)層: 這一模塊分爲:狀態追蹤(對句子進
原创 java學習記錄一:多進程運算
// 普通文件讀取 BufferedReader bf = new BufferedReader(new FileReader("文件路徑")); 高效:把文件讀取到一個緩存區再通過IO讀取減少IO讀取次數 // 大文件讀取 Buff
原创 半天時間學習SQL語言
之前很少使用,但是換了新的工作,雖然還在遠程辦公,但發現用到的比較多,所以花半天時間學習下基本語言,主要是從w3school中學習(後續會逐步補充) 1、sql主要分爲兩個部分:dml和ddl。DML主要是查詢和更新,都是處理表中數據,包
原创 Batch_ normalization、Layer_ normalization、Weight_ normalization的異同
1、先說爲什麼會有BN: 我們在訓練一個深度網絡的時候,每一層的結果對整體結果都有很大影響的。而我們每次網絡的輸入都是batch_size大小的,這樣做的目的是避免錯誤樣本導致的梯度更新錯誤,而就是這樣的batch_size個樣本,他
原创 7、文本分類算法
textCNN:前面介紹過,這裏不做贅述 TextRNN:前面介紹過,也不做贅述 Attention:就是在輸出之後加了一層attention,感覺大家都已經很瞭解了,但還是簡單說一下,attention就是輸出層的s(t-1)與前面所有
原创 4、實體識別BiLSTM+CRF、Lattice LSTM
自己之前寫過,直接貼原地址了 1、BiLSTM:https://blog.csdn.net/cuipanguo/article/details/100747063 2、Lattice LSTM:https://blog.csdn.net/
原创 3、CNN、RNN、LSTM
1、CNN:就是把每個字轉換成向量,再拼接成圖像的樣式,再用卷積核處理,再池化和拼接,再softmax得到分類結果,卷積核的作用能夠整合一些上下文信息。 2、RNN:前向網絡中加入了前一個字的信息,隱含層嘛;能夠整合更多的上下文信息,效