1、word2vec

原創

2020-07-05 22:00

1、以前怎麼計算兩句話的相似度呢？就是詞袋模型

我很帥》[1（我）,1（帥）,1（很）,0（不）]

我不帥》[1,1,0,1]

2、現在怎麼計算呢？就是把每個字轉換成一個向量（也可以把一句話變成一個向量）下面是兩種經典模型

CBOW簡單說一下：一共N個字，上下文各兩個字，每個字是一個1*N向量，對應位置是1，其餘全爲0.然後呢乘以一個N*K的矩陣，K就是詞向量的維度，再疊加，再乘以一個K*N的矩陣再softmax，得到一個1*N的向量，與這個字做比較，計算損失就行了，bp算法，最後得到N*K的矩陣用來計算每個字的詞向量。

這樣是不是就完美了？但是這樣一個字一個字來很慢啊，效率很重要呀，

解決方案：Hierarchical Softmax和Negative Sampling兩種方法

我之前上傳的資料裏面有一個講Word2vec數學原理的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

我宣佈，這是我找到的史上AI最全論文體系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

攻擊者正在利用AI，對保險公司發起大規模欺詐

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

LoRA微調語言大模型的實用技巧與實踐

隨着人工智能技術的不斷髮展，大型語言模型在各個領域的應用越來越廣泛。然而，大型語言模型的訓練成本高昂，且難以適應不同領域的具體需求。爲了解決這個問題，LoRA微調技術應運而生。本文將介紹LoRA微調語言大模型的實用技巧，幫助讀者更好地應用這

2024-05-09 12:48:45

Kimi大模型，加入微信了

哈哈哈，喜大普奔！前段時間發現微信公衆號被開通留言，最近又發現 Kimi大模型現在可以接入微信公衆號了！這意味着我們能夠更加便捷地享受到Kimi智能助手的服務，還代表着我們有了一個免費且好用且穩定且無需翻牆的 AI助

2024-05-13 23:51:55

內嵌專業接口的RISC-V架構MCU，誰家有？

前一陣，蘋果推出了M1處理器，相比關注具體指標，業內其實更關心M1推出後會引領產業往哪個方向發展，不少人的結論是RISC-V會成爲未來芯片發展的熱點，因爲RISC-V有很多巧妙的方法可以提高性能。計算機界泰斗David Patterso

2024-05-13 23:26:39

免費報名|Zabbix受邀出席上海開源技術沙龍，探討開源軟件賦能新質生產力

大家好！5月25日我們將舉辦今年第三期上海開源技術沙龍活動。本次的主題是——開源軟件賦能新質生產力。在上海開源信息技術協會 (SHOpen) 的指導下，隨着活動的持續開展，上海開源技術沙龍獲得了越來越多開發者的關注與

2024-05-13 22:34:43

舌尖上的AI：人工智能技術正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

海外市場成 ISV 新掘金地？生成式 AI 如何加速業務創新實踐？Zilliz 有話說

期望瞭解 Zilliz 最新動態？想要與 Zilliz 線下探討 AI 時代向量數據庫的全球化佈局思考及典型實踐？機會來啦！5 月 10 日，Zilliz 將閃現亞馬遜雲科技的兩場活動現場（蘇州、西安），與大家共話行業發展與未來，歡迎報名

2024-05-08 21:21:54

程序員不存在了……嗎？

近期，在談及人工智能的發展速度時，馬斯克預計，按照當前的技術進步速度，到2030年人工智能的智力可能超越人類，這項技術甚至有可能終結人類。那麼，人工智能的強大究竟對人類將帶來更多機遇還是危機呢？今天，我們特邀了《深入理解 FFmpeg

2024-05-08 11:12:06

AI繪圖新選擇：Fooocus工具發佈，小顯存助力大模型運行

隨着人工智能技術的飛速發展，AI繪圖工具已經成爲了衆多創作者們的得力助手。它們能夠基於深度學習算法，快速生成高質量的圖像，爲設計、藝術等領域注入了新的活力。然而，傳統的AI繪圖工具往往對硬件要求較高，使得許多擁有較低配置設備的用戶望而卻步。

2024-05-07 23:30:10

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

1.導讀在當今數字化時代，全球互聯網用戶已超過50億人，中國的互聯網用戶數量更是達到10.5億，這爲企業提供了巨大的市場機遇和挑戰。根據市場研究公司的最新報告，全球數字營銷費用支出預計將在未來五年內進一步大幅增加，這表明數字化營銷已成爲

2024-05-07 23:17:11

電子合同一站式解決方案 | 京東雲技術團隊

一：平臺定位和優勢（爲什麼建） 1.1、平臺定位由京東科技業務中臺主導發起，聯合法律部、安全部共建，旨在爲業務提供電子合同管理的中臺化能力，當前已形成一套成熟的“全線上、全生命週期電子合同管理系統”，可提供包括合同模板創建、模板預覽、

2024-05-06 23:16:37

迅爲RK3568開發板可以接哪些好玩的模塊

iTOP-3568開發板採用瑞芯微RK3568處理器，內部集成了四核64位Cortex-A55處理器。主頻高達2.0Ghz，RK809動態調頻。集成了雙核心架構GPU，ARM G52 2EE、支持OpenGLES1.1/2.0/3.2、Op

2024-05-06 22:54:29

大模型微調方法總結：LoRA, Adapter, Prefix-tuning, P-tuning, Prompt-tuning

隨着自然語言處理（NLP）技術的不斷髮展，大模型微調（finetune）方法成爲了提高模型性能的關鍵手段。本文將對LoRA、Adapter、Prefix-tuning、P-tuning和Prompt-tuning等主流微調方法進行總結，幫助

2024-05-09 12:48:44

GLM國產大模型訓練加速：高效性能與成本優化的實踐

隨着人工智能技術的不斷進步，大模型的訓練成爲了推動深度學習領域發展的重要力量。然而，傳統的訓練方式往往面臨着性能瓶頸和高昂的成本問題，這使得許多研究者和開發者望而卻步。爲了解決這一難題，我們探索了使用OneFlow框架對GLM國產大模型進行

2024-05-07 23:30:09

24小時熱門文章

最新文章

最新評論文章