台部落deephub

構建大型語言模型應用程序可能會頗具挑戰，尤其是當我們在不同的框架（如Langchain和LlamaIndex）之間進行選擇時。LlamaIndex在智能搜索和數據檢索方面的性能令人矚目，而LangChain則作爲一個更加通用的應用程序框架，

2024-05-22 13:04:55

xLSTM的新聞大家可能前幾天都已經看過了，原作者提出更強的xLSTM，可以將LSTM擴展到數十億參數規模，我們今天就來將其與原始的lstm進行一個詳細的對比，然後再使用Pytorch實現一個簡單的xLSTM。 xLSTM xLSTM 是對

2024-05-20 13:04:55

這篇論文提出了一種高稀疏性基礎大型語言模型（LLMs）的新方法，通過有效的預訓練和部署，實現了模型在保持高準確度的同時，顯著提升了處理速度。 https://avoid.overfit.cn/post/06961c02a12b48a6a3

2024-05-19 13:04:49

AlphaFold3 是 DeepMind 開發的一款蛋白質結構預測軟件，它在AlphaFold2的基礎上進行了改進。其中最主要的一個改進就是引入了擴散模型，這使得擴散模型不僅僅可以應用於文生圖，其實擴散模型早已經在各個領域中都又所發展，今

2024-05-18 13:04:46

基於圖的神經網絡是強大的模型，可以學習網絡中的複雜模式。在本文中，我們將介紹如何爲同構圖數據構造PyTorch Data對象，然後訓練不同類型的神經網絡來預測節點所屬的類。這種類型的預測問題通常被稱爲節點分類。我們將使用來自Benede

2024-05-17 13:04:50

ATFNet是一個深度學習模型，它結合了時間域和頻域模塊來捕獲時間序列數據中的依賴關係。引入了一種新的加權機制來調整週期性的權重，增強了離散傅立葉變換，幷包括一個複雜關係識別的注意力機制，在長期時間序列預測中優於當前方法(每個模型都這麼說)

2024-05-16 13:04:56

時間序列分析是數據科學和機器學習領域最廣泛的主題之一:無論是預測金融事件、能源消耗、產品銷售還是股票市場趨勢，這一領域一直是企業非常感興趣的領域。隨着機器學習模型的不斷進步，使除了傳統的統計預測方法(如迴歸模型、ARIMA模型、指數平滑)

2024-05-15 13:04:54

Transformers 是一個強大的架構，但模型因其採用的自注意力機制，雖然能夠有效地處理序列數據並捕獲長距離依賴關係，但同時也容易導致在訓練過程中出現OOM（Out of Memory，內存不足）或者達到GPU的運行時限制。主要是因爲

2024-05-13 13:04:48

這是微軟再5月剛剛發佈的一篇論文提出了一種解碼器-解碼器架構YOCO，因爲只緩存一次KV對，所以可以大量的節省內存。以前的模型都是通過緩存先前計算的鍵/值向量，可以在當前生成步驟中重用它們。鍵值(KV)緩存避免了對每個詞元再次編碼的過程，

2024-05-12 13:06:01

圖機器學習（Graph Machine Learning，簡稱Graph ML）是機器學習的一個分支，專注於利用圖形結構的數據。在圖形結構中，數據以圖的形式表示，其中的節點（或頂點）表示實體，邊（或鏈接）表示實體之間的關係。本篇文章將從基

2024-05-11 13:04:50

在機器學習中，L1正則化、L2正則化和Elastic Net正則化是用來避免過擬合的技術，它們通過在損失函數中添加一個懲罰項來實現。 https://avoid.overfit.cn/post/c99ec105e41c4a71a0a1

2024-05-10 13:04:51

這是4月發表的論文《Better & Faster Large Language Models via Multi-token Prediction》，作者們提出了一種創新的多詞元預測方法，該方法在提高大型語言模型（LLMs）的樣本效率和推

2024-05-09 13:04:49

前幾天火爆的Kolmogorov-Arnold Networks是具有開創性，目前整個人工智能社區都只關注一件事LLM。我們很少看到有挑戰人工智能基本原理的論文了，但這篇論文給了我們新的方向。 mlp或多層感知位於AI架構的最底部，幾乎是每

2024-05-08 13:04:46

在深度學習或神經網絡中，"循環編碼"（Cyclical Encoding）是一種編碼技術，其特點是能夠捕捉輸入或特徵中的週期性或循環模式。這種編碼方法常用於處理具有周期性行爲的任務，比如時間序列預測或理解展示週期性特徵的序列。循環編碼的

2024-05-07 13:04:54

當使用LSTM進行時間序列預測時，人們容易陷入一個常見的陷阱。爲了解釋這個問題，我們需要先回顧一下回歸器和預測器是如何工作的。預測算法是這樣處理時間序列的: 一個迴歸問題是這樣的: 因爲LSTM是一個迴歸量，我們需要把時間序列轉換成一個

2024-05-06 13:04:48