碾壓GPT-4！Claude3到底有多強？

原創

2024-03-12 14:57

2024年3月4日，官方宣佈推出 Claude 3 模型系列，它在廣泛的認知任務中樹立了新的行業基準。該系列包括三個按能力遞增排序的最先進模型：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每個後續模型都提供越來越強大的性能，允許用戶爲其特定應用選擇智能、速度和成本之間的最佳平衡。

Opus 和 Sonnet 現在已經可以在 claude.ai 和目前在 159個國家普遍可用的 Claude API 中使用。Haiku 很快也會上市。

Claude 3 模型系列

智能新標準

Opus， Claude最智能的模型，在大部分常用的 AI 系統評估基準上表現優於同行，包括本科水平專家知識（MMLU）、研究生水平專家推理（GPQA）、基礎數學（GSM8K）等。它在複雜任務上展示了接近人類的理解和流利程度，引領了通用智能的前沿。

所有 Claude 3 模型在分析和預測、細膩的內容創作、代碼生成以及使用西班牙語、日語和法語等非英語語言對話方面的能力都有所提升。

下面是 Claude 3 模型與 Claude同行在多個能力基準測試比較：

近乎即時的結果

Claude 3 模型可以爲實時客戶聊天、自動補全和數據提取任務提供動力，這些響應必須是即時和實時的。

Haiku 是市場上智能範疇性價比最高的模型。它可以在不到三秒的時間內讀懂一個信息和數據密集的 arXiv 上的研究論文（約10k 個 Token），包括圖表和圖形。上市後， Claude預計性能會進一步提高。

對於大多數工作負載，Sonnet 的速度是 Claude 2 和 Claude 2.1 的兩倍，智能水平也更高。它擅長迅速響應的任務，如知識檢索或銷售自動化。Opus 以與 Claude 2 和 2.1 相似的速度交付，但智能水平更高。

強大的視覺能力

Claude 3 模型擁有與其他領先模型相當的複雜視覺能力。它們可以處理包括照片、圖表、圖形和技術圖紙在內的廣泛視覺格式。 Claude特別高興爲 Claude的企業客戶提供這種新的方式，其中一些客戶的知識庫有多達50%以多種格式編碼，如PDF、流程圖或演示幻燈片。

更少的拒絕

先前的 Claude 模型經常做出不必要的拒絕，這表明缺乏上下文理解。 Claude在這一領域取得了有意義的進展：與上一代模型相比，Opus、Sonnet 和 Haiku 大大減少了拒絕迴應那些觸及系統保護邊界的提示。如下所示，Claude 3 模型對請求有更微妙的理解，識別真正的危害，並且更少地拒絕回答無害的提示。

提高準確率

各種規模的企業都依賴 Claude的模型爲他們的客戶服務，因此對於模型輸出來說，保持高準確率是至關重要的。爲了評估這一點， Claude使用了一套複雜的、真實的問題，這些問題針對目前模型的已知弱點。 Claude將回應分爲正確答案、錯誤答案（或幻覺）以及不確定性聲明，即模型表示它不知道答案，而不是提供錯誤信息。與 Claude 2.1 相比，Opus 在這些具挑戰性的開放式問題上的準確度（或正確答案）表現出了兩倍的提升，同時還展現出降低了錯誤答案的水平。

除了產生更值得信賴的迴應外， Claude很快還將在 Claude 3 模型中啓用引用功能，從而使它們能夠指向參考材料中的精確句子以驗證它們的答案。

長上下文和近乎完美的回憶

Claude 3 模型系列在發佈之初將提供 200K 上下文窗口。然而，所有三個模型都能夠接受超過 100 萬個 Token 的輸入， Claude可能會向需要增強處理能力的選定客戶提供這一點。

爲了有效處理長上下文提示，模型需要強大的回憶能力。'大海撈針' (NIAH) 評估衡量模型從大量數據中準確回憶信息的能力。 Claude通過使用每個提示中的 30 個隨機針/問題對之一，並在多樣化的衆包文檔語料上進行測試，增強了這一基準測試的穩健性。Claude 3 Opus 不僅實現了近乎完美的回憶，準確率超過了 99%，在某些情況下，它甚至識別出評估自身的侷限性，識別出“針”句似乎是人爲插入到原文中的。

負責任的設計

Claude開發 Claude 3 模型系列，旨在讓它們像它們的能力一樣值得信賴。 Claude有幾個專門的團隊跟蹤和減輕廣泛的風險，範圍從錯誤信息和CSAM到生物濫用、選舉干預和自主複製技能。 Claude繼續開發諸如 Constitutional AI 這樣的方法來提高 Claude模型的安全性和透明度，並已調整 Claude的模型以減輕可能由新模式引發的隱私問題。

在日益複雜的模型中解決偏見問題是一項持續的努力，而 Claude在這次新發布中取得了進步。如模型卡所示，Claude 3 根據 Bias Benchmark for Question Answering (BBQ) 的評估顯示出比 Claude以前的模型更少的偏見。 Claude仍然致力於推進減少偏見並促進 Claude模型中更大中立性的技術，確保它們不會傾向於任何特定的黨派立場。

儘管 Claude 3 模型系列在生物學知識、網絡相關知識和自主性方面相比以前的模型取得了進步，但它仍然符合 Claude Responsible Scaling Policy 中的 AI 安全等級 2 (ASL-2)。

本文由博客一文多發平臺 OpenWrite 發佈！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

碾壓GPT-4！Claude3到底有多強？

Claude 3 模型系列

智能新標準

近乎即時的結果

強大的視覺能力

更少的拒絕

提高準確率

長上下文和近乎完美的回憶

負責任的設計

AI模型 Llama 3體驗筆記

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

南京大學×百度“星河杯”AI 大模型創意校園賽正式起航

實用分享！用Axure RP構建交互的5個小技巧

大模型微調提升AI應用性能

LoRA微調語言大模型的實用技巧

系統整容紀：責任鏈設計模式的應用實戰（爆燈了，研發工期由45天降爲1天）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結