碾壓GPT-4!Claude3到底有多強?

2024年3月4日,官方宣佈推出 Claude 3 模型系列,它在廣泛的認知任務中樹立了新的行業基準。該系列包括三個按能力遞增排序的最先進模型:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每個後續模型都提供越來越強大的性能,允許用戶爲其特定應用選擇智能、速度和成本之間的最佳平衡。

Opus 和 Sonnet 現在已經可以在 claude.ai 和目前在 159個國家普遍可用的 Claude API 中使用。Haiku 很快也會上市。

Claude 3 模型系列

智能新標準

Opus, Claude最智能的模型,在大部分常用的 AI 系統評估基準上表現優於同行,包括本科水平專家知識(MMLU)、研究生水平專家推理(GPQA)、基礎數學(GSM8K)等。它在複雜任務上展示了接近人類的理解和流利程度,引領了通用智能的前沿。

所有 Claude 3 模型在分析和預測、細膩的內容創作、代碼生成以及使用西班牙語、日語和法語等非英語語言對話方面的能力都有所提升。

下面是 Claude 3 模型與 Claude同行在多個能力基準測試比較:

img

近乎即時的結果

Claude 3 模型可以爲實時客戶聊天、自動補全和數據提取任務提供動力,這些響應必須是即時和實時的。

Haiku 是市場上智能範疇性價比最高的模型。它可以在不到三秒的時間內讀懂一個信息和數據密集的 arXiv 上的研究論文(約10k 個 Token),包括圖表和圖形。上市後, Claude預計性能會進一步提高。

對於大多數工作負載,Sonnet 的速度是 Claude 2 和 Claude 2.1 的兩倍,智能水平也更高。它擅長迅速響應的任務,如知識檢索或銷售自動化。Opus 以與 Claude 2 和 2.1 相似的速度交付,但智能水平更高。

強大的視覺能力

Claude 3 模型擁有與其他領先模型相當的複雜視覺能力。它們可以處理包括照片、圖表、圖形和技術圖紙在內的廣泛視覺格式。 Claude特別高興爲 Claude的企業客戶提供這種新的方式,其中一些客戶的知識庫有多達50%以多種格式編碼,如PDF、流程圖或演示幻燈片。

img

更少的拒絕

先前的 Claude 模型經常做出不必要的拒絕,這表明缺乏上下文理解。 Claude在這一領域取得了有意義的進展:與上一代模型相比,Opus、Sonnet 和 Haiku 大大減少了拒絕迴應那些觸及系統保護邊界的提示。如下所示,Claude 3 模型對請求有更微妙的理解,識別真正的危害,並且更少地拒絕回答無害的提示。

img

提高準確率

各種規模的企業都依賴 Claude的模型爲他們的客戶服務,因此對於模型輸出來說,保持高準確率是至關重要的。爲了評估這一點, Claude使用了一套複雜的、真實的問題,這些問題針對目前模型的已知弱點。 Claude將回應分爲正確答案、錯誤答案(或幻覺)以及不確定性聲明,即模型表示它不知道答案,而不是提供錯誤信息。與 Claude 2.1 相比,Opus 在這些具挑戰性的開放式問題上的準確度(或正確答案)表現出了兩倍的提升,同時還展現出降低了錯誤答案的水平。

除了產生更值得信賴的迴應外, Claude很快還將在 Claude 3 模型中啓用引用功能,從而使它們能夠指向參考材料中的精確句子以驗證它們的答案。

img

長上下文和近乎完美的回憶

Claude 3 模型系列在發佈之初將提供 200K 上下文窗口。然而,所有三個模型都能夠接受超過 100 萬個 Token 的輸入, Claude可能會向需要增強處理能力的選定客戶提供這一點。

爲了有效處理長上下文提示,模型需要強大的回憶能力。'大海撈針' (NIAH) 評估衡量模型從大量數據中準確回憶信息的能力。 Claude通過使用每個提示中的 30 個隨機針/問題對之一,並在多樣化的衆包文檔語料上進行測試,增強了這一基準測試的穩健性。Claude 3 Opus 不僅實現了近乎完美的回憶,準確率超過了 99%,在某些情況下,它甚至識別出評估自身的侷限性,識別出“針”句似乎是人爲插入到原文中的。

img

負責任的設計

Claude開發 Claude 3 模型系列,旨在讓它們像它們的能力一樣值得信賴。 Claude有幾個專門的團隊跟蹤和減輕廣泛的風險,範圍從錯誤信息和CSAM到生物濫用、選舉干預和自主複製技能。 Claude繼續開發諸如 Constitutional AI 這樣的方法來提高 Claude模型的安全性和透明度,並已調整 Claude的模型以減輕可能由新模式引發的隱私問題。

在日益複雜的模型中解決偏見問題是一項持續的努力,而 Claude在這次新發布中取得了進步。如模型卡所示,Claude 3 根據 Bias Benchmark for Question Answering (BBQ) 的評估顯示出比 Claude以前的模型更少的偏見。 Claude仍然致力於推進減少偏見並促進 Claude模型中更大中立性的技術,確保它們不會傾向於任何特定的黨派立場。

儘管 Claude 3 模型系列在生物學知識、網絡相關知識和自主性方面相比以前的模型取得了進步,但它仍然符合 Claude Responsible Scaling Policy 中的 AI 安全等級 2 (ASL-2)。

本文由博客一文多發平臺 OpenWrite 發佈!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章