台部落deephub

Transformers 是一個強大的架構，但模型因其採用的自注意力機制，雖然能夠有效地處理序列數據並捕獲長距離依賴關係，但同時也容易導致在訓練過程中出現OOM（Out of Memory，內存不足）或者達到GPU的運行時限制。主要是因爲

2024-05-13 13:04:48

這是微軟再5月剛剛發佈的一篇論文提出了一種解碼器-解碼器架構YOCO，因爲只緩存一次KV對，所以可以大量的節省內存。以前的模型都是通過緩存先前計算的鍵/值向量，可以在當前生成步驟中重用它們。鍵值(KV)緩存避免了對每個詞元再次編碼的過程，

2024-05-12 13:06:01

圖機器學習（Graph Machine Learning，簡稱Graph ML）是機器學習的一個分支，專注於利用圖形結構的數據。在圖形結構中，數據以圖的形式表示，其中的節點（或頂點）表示實體，邊（或鏈接）表示實體之間的關係。本篇文章將從基

2024-05-11 13:04:50

在機器學習中，L1正則化、L2正則化和Elastic Net正則化是用來避免過擬合的技術，它們通過在損失函數中添加一個懲罰項來實現。 https://avoid.overfit.cn/post/c99ec105e41c4a71a0a1

2024-05-10 13:04:51

這是4月發表的論文《Better & Faster Large Language Models via Multi-token Prediction》，作者們提出了一種創新的多詞元預測方法，該方法在提高大型語言模型（LLMs）的樣本效率和推

2024-05-09 13:04:49

前幾天火爆的Kolmogorov-Arnold Networks是具有開創性，目前整個人工智能社區都只關注一件事LLM。我們很少看到有挑戰人工智能基本原理的論文了，但這篇論文給了我們新的方向。 mlp或多層感知位於AI架構的最底部，幾乎是每

2024-05-08 13:04:46

在深度學習或神經網絡中，"循環編碼"（Cyclical Encoding）是一種編碼技術，其特點是能夠捕捉輸入或特徵中的週期性或循環模式。這種編碼方法常用於處理具有周期性行爲的任務，比如時間序列預測或理解展示週期性特徵的序列。循環編碼的

2024-05-07 13:04:54

當使用LSTM進行時間序列預測時，人們容易陷入一個常見的陷阱。爲了解釋這個問題，我們需要先回顧一下回歸器和預測器是如何工作的。預測算法是這樣處理時間序列的: 一個迴歸問題是這樣的: 因爲LSTM是一個迴歸量，我們需要把時間序列轉換成一個

2024-05-06 13:04:48

嵌入模型是大型語言模型檢索增強生成(RAG)的關鍵組成部分。它們對知識庫和用戶編寫的查詢進行編碼。使用與LLM相同領域的訓練或微調的嵌入模型可以顯著改進RAG系統。然而，尋找或訓練這樣的嵌入模型往往是一項困難的任務，因爲領域內的數據通常是

2024-05-05 13:04:45

在時間序列預測領域中，模型的體系結構通常依賴於多層感知器(MLP)或Transformer體系結構。基於mlp的模型，如N-HiTS, TiDE和TSMixer，可以在保持快速訓練的同時獲得非常好的預測性能。基於Transformer的模

2024-05-04 13:04:51

我們以前的文章中介紹過將知識圖譜與RAG結合的示例，在本篇文章中我們將文本和知識圖譜結合，來提升我們RAG的性能 https://avoid.overfit.cn/post/5782ca7c4695427b8c0299ad0887c564

2024-05-03 13:04:56

這是4月剛剛發佈在arxiv上的論文，介紹了一種名爲“Gradformer”的新型圖Transformer，它在自注意力機制中引入了指數衰減掩碼。以下是主要創新點：指數衰減掩碼： Gradformer在其自注意力模塊中集成了衰減掩碼。該

2024-05-02 13:04:50

從左至右依次爲托馬斯·貝葉斯、皮埃爾-西蒙·拉普拉斯和哈羅德·傑弗里斯——逆概率(即現在所說的客觀貝葉斯分析)發展中的關鍵人物。[24] https://avoid.overfit.cn/post/8c7a66d96347413db8

2024-05-01 13:04:51

圖像處理是一種數學計算。數字圖像由稱爲像素的彩色小點組成。每個像素由紅、綠、藍(RGB)三個獨立的顏色組成。每個像素中的主色由每個RGB分量的數值決定。本文將介紹10個使用使用NumPy就可以進行的圖像處理步驟，雖然有更強大的圖像處理庫，

2024-05-01 13:04:51

Command-R+， Mixtral-8x22b和Llama 3 70b都在最近的幾周內發佈了，這些模型是巨大的。它們都有超過700億個參數: Command-R+: 104B參數 Mixtral-8x22b:具有141B參數的混合專家(

2024-04-29 13:04:56