chatgpt競爭對手Claude

由OpenAI前員工共同創立的人工智能初創公司Anthropic已經悄悄開始測試一個名爲Claude的類似ChatGPT的新型AI助手。

克勞德的界面是一個Slack頻道,使用機器人編輯消息以使文本逐字顯示。

Claude和ChatGPT都依靠強化學習(RL)來訓練其輸出的偏好模型,並且首選世代用於以後的微調。然而,用於開發這些偏好模型的方法有所不同,Anthropic傾向於一種他們稱之爲憲法AI的方法。

ChatGPT和去年年底發佈的GPT-3(text-davinci-003)的最新API版本都使用了一種稱爲人類反饋強化學習(RLHF)的過程。RLHF根據人類提供的質量排名訓練強化學習(RL)模型:人類對同一提示生成的輸出進行排名,模型學習這些偏好,以便它們可以更大規模地應用於其他世代。

憲法AI基於RLHF基線,其過程在Anthropic的研究論文。

與RLHF不同,憲法AI的過程使用模型而不是人類來生成微調輸出的初始排名。該模型根據一系列基本原則(其“憲法”)選擇最佳響應。正如研究論文中所指出的,制定一套原則是強化學習過程中唯一的人爲監督。

總的來說,Claude是ChatGPT的重要競爭對手,在許多領域都有所改進。雖然被認爲是“憲法”原則的展示,但克勞德不僅更傾向於拒絕不適當的請求,而且比 ChatGPT 更有趣。克勞德的寫作更囉嗦,但也更自然。它連貫地寫下自己、侷限性和目標的能力似乎也使它能夠更自然地回答其他主題的問題。

對於其他任務,如代碼生成或代碼推理,克勞德似乎更糟。它的代碼生成似乎包含更多的錯誤和錯誤。對於其他任務,例如通過邏輯問題進行計算和推理,Claude和ChatGPT看起來大致相似。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章