原创 如果用機器學習的理論來理解人的行爲,會有什麼發現?

以前有人問我“書讀了很多之後,但是其中內容都忘記了,那麼讀書的價值何在呢?” 我說:“訓練數據在訓練完模型之後就可以刪掉了,只要權值文件和網絡結構保存好即可”   死記硬背是沒有用的,因爲死記硬背是一種過擬合的能力,而一個好的機器學習模

原创 聊一聊學習率預熱linear warmup

來源鏈接:https://mp.weixin.qq.com/s?__biz=MzAxOTU5NTU4MQ==&mid=2247488715&idx=1&sn=2acedd3705b27e5b9e259485f2dd9653&chksm=9b

原创 softmax和crossentropy

當進行多分類任務時,通常會使用 Softmax 函數和 CrossEntropyLoss 損失函數來處理模型的輸出和計算損失。 Softmax 函數: Softmax 函數用於將模型的原始輸出轉換爲概率分佈。對於一個具有 K 個類別的

原创 Linux文件比較命令

Linux文件比較命令用來比較兩個文件內容的差別。主要有comm命令和diff命令。如果想對兩個有序的文件進行比較,可以使用comm命令。如果要逐行比較兩個文本文件,列出其不同之處可以使用diff命令。Linux還有一種基本比較命令cmp,

原创 超級對齊簡介zz

我們如何確保人工智能系統比人類聰明得多並遵循人類意圖? 目前,我們還沒有一個解決方案來引導或控制潛在的超級人工智能,並防止其失控。我們當前調整人工智能的技術,例如根據人類反饋進行強化學習,依賴於人類監督人工智能的能力。但人類無法可靠地監督比

原创 爲什麼RLHF中,PPO需要Critic模型而不是直接使用RewardModel

在強化學習中,PPO(Proximal Policy Optimization)算法是一種基於策略梯度的方法,用於訓練強化學習智能體。PPO算法中引入Critic模型的主要目的是爲了提供一個價值估計器,用於評估狀態或狀態動作對的價值,從而輔

原创 大模型可視化

 說明:左邊是一個與Show probabilities設置爲 的OpenAI Playground 基本一致的界面Full spectrum。提示是Are bugs real?,隨後突出顯示的文本是模型生成的完成。令牌根據模型預測的概率

原创 RLHF

RLHF不擅長推理、事實等固定答案的優化,擅長自由度更高的生成;RLHF的上限取決於預訓練模型本身的能力,對於多項選擇這種需要推理、知識和輸出格式固定的任務,預訓練後的GPT-4[2]能到73.7%,RLHF之後只到了74%,單獨看很多任務

原创 如何修改notebook內核對應的python地址

要修改Jupyter Notebook內核對應的Python地址,可以按照以下步驟進行: 打開終端或命令提示符。 列出當前可用的Jupyter Notebook內核。運行以下命令:jupyter kernelspec lis

原创 PPO算法的一個簡單實現:對話機器人

綜上,PPO算法是一種具體的Actor-Critic算法實現,比如在對話機器人中,輸入的prompt是state,輸出的response是action,想要得到的策略就是怎麼從prompt生成action能夠得到最大的reward,也就是擬

原创 GPT4的侷限性

GPT-4 所採用的「預測下一個詞」模式,存在着明顯的侷限性:模型缺乏規劃、工作記憶、回溯能力和推理能力。 由於模型依賴於生成下一個詞的局部貪婪過程,而沒有對任務或輸出的全局產生深入的理解。因此,GPT-4 擅長生成流暢且連貫的文本,但不擅

原创 excel中判斷某個單元格包含某個字符的方法

在Excel中,你可以使用FIND或SEARCH函數來判斷一個單元格是否包含某個字符。這兩個函數都會返回子字符串在單元格內容中的起始位置,如果沒有找到子字符串,則返回錯誤。 FIND和SEARCH函數的基本語法是相似的,但FIND函數區分大

原创 異常檢測算法比較

只有 1% 的標記異常,⼤多數半監督⽅法可以勝過最好的⽆監督⽅法,證明了監督的重要性; (iii) 在受 控環境中,我們觀察到針對特定異常類型的最佳⽆監督⽅法甚⾄優於半監督和完全監督⽅法,揭⽰了理解數據特徵 的必要性; (iv) 半監督⽅法

原创 Mac M1 運行PyCharm出現的問題:Error loading: /Applications/PyCharm CE.app/.../attach_x86_64.dylib

1、提示 Error loading: /Applications/PyCharm CE.app/Contents/plugins/python/helpers/pydev/pydevd_attach_to_process/attach_x