台部落deephub

在數據科學和分析中，理解高維數據集中的底層模式是至關重要的。t-SNE已成爲高維數據可視化的有力工具。它通過將數據投射到一個較低維度的空間，提供了對數據結構的詳細洞察。但是隨着數據集的增長，標準的t-SNE算法在計算有些困難，所以發展出了B

2024-04-23 13:04:49

在不斷髮展的大型語言模型（LLMs）領域中，用於支持這些模型的工具和技術正以與模型本身一樣快的速度進步。在這篇文章中，我們將總結5種搭建開源大語言模型服務的方法，每種都附帶詳細的操作步驟，以及各自的優缺點。 https://avoid

2024-04-22 13:05:00

ORPO是一種新的微調技術，它將傳統的監督微調和偏好對齊階段結合到一個過程中。減少了訓練所需的計算資源和時間。論文的實證結果表明，ORPO在各種模型大小和基準上都優於其他對齊方法，所以這次我們就來使用最新的Llama 3來測試下ORPO的效

2024-04-21 13:04:56

時間序列數據的特徵工程是一種技術，用於從時間序列數據中提取信息或構造特徵，這些特徵可用於提高機器學習模型的性能。以下是一些常見的時間序列特徵工程技術：滾動統計量：計算時間窗口內的統計量，如平均值、中位數、標準偏差、最小值和最大值。這些統

2024-04-20 13:05:13

關於檢索增強生成（RAG）的文章已經有很多了，如果我們能創建出可訓練的檢索器，或者說整個RAG可以像微調大型語言模型（LLM）那樣定製化的話，那肯定能夠獲得更好的結果。但是當前RAG的問題在於各個子模塊之間並沒有完全協調，就像一個縫合怪一樣

2024-04-19 13:04:48

這篇文章將演示如何可視化PyTorch激活層。可視化激活，即模型內各層的輸出，對於理解深度神經網絡如何處理視覺信息至關重要，這有助於診斷模型行爲並激發改進。我們先安裝必要的庫: https://avoid.overfit.cn/post

2024-04-17 13:04:51

現在有許多方法可以使大型語言模型（LLM）與人類偏好保持一致。以人類反饋爲基礎的強化學習（RLHF）是最早的方法之一，並促成了ChatGPT的誕生，但RLHF的成本非常高。與RLHF相比，DPO、IPO和KTO的成本明顯更低，因爲它們不需要

2024-04-16 13:04:46

在我們周圍的各個領域，從分子結構到社交網絡，再到城市設計結構，到處都有相互關聯的圖數據。圖神經網絡（GNN）作爲一種強大的方法，正在用於建模和學習這類數據的空間和圖結構。它已經被應用於蛋白質結構和其他分子應用，例如藥物發現，以及模擬系統，如

2024-04-15 13:05:23

Moirai 是 Salesforce 開發的用於時間序列預測的基礎模型。它被設計爲一種通用模型，能夠預測廣泛的時間序列。爲了實現這種靈活性，該模型解決了時間序列數據相關的幾個挑戰，包括：處理各種數據頻率（小時、日、周等）；適應任何數

2024-04-14 13:06:00

我們開始看4月的新論文了，這是來自北京大學人工智能研究所、北京大學智能科學與技術學院的研究人員發佈的Principal Singular Values and Singular Vectors Adaptation（PiSSA）方法。 Pi

2024-04-12 13:04:55

今天我們來總結以下大型語言模型面試中常問的問題 https://avoid.overfit.cn/post/5cbf407986584cfab3efd5ee3801b697

2024-04-11 13:05:00

在本篇文章我們將詳細討論推測解碼，這是一種可以將LLM推理速度提高約2 - 3倍而不降低任何準確性的方法。我們還將會介紹推測解碼代碼實現，並看看它與原始transformer 實現相比到底能快多少。推測解碼是一種“先推測後驗證” (Dr

2024-04-10 13:04:57

本文將介紹大語言模型中使用的不同令牌遮蔽技術，並比較它們的優點，以及使用Pytorch實現以瞭解它們的底層工作原理。令牌掩碼Token Masking是一種廣泛應用於語言模型分類變體和生成模型訓練的策略。BERT語言模型首先使用，並被用於

2024-04-09 13:04:53

如果你一直在關注大型語言模型的架構，你可能會在最新的模型和研究論文中看到“SwiGLU”這個詞。SwiGLU可以說是在大語言模型中最常用到的激活函數，我們本篇文章就來對他進行詳細的介紹。SwiGLU其實是2020年穀歌提出的激活函數，它結合

2024-04-08 13:05:34

歸一化層是深度神經網絡體系結構中的關鍵，在訓練過程中確保各層的輸入分佈一致，這對於高效和穩定的學習至關重要。歸一化技術的選擇（Batch, Layer, GroupNormalization）會顯著影響訓練動態和最終的模型性能。每種技術的相

2024-04-07 13:04:54