該團隊由 OpenAI 之前的 Alignment 部門的研究人員和工程師,以及來自公司其他團隊的研究人員組成;他們有權使用公司迄今爲止已獲得的 20% 的計算資源,目標是在未來四年內解決控制超智能 AI 的核心技術挑戰。 Sutskever 和 Leike 認爲,超智能將可能在十年內實現。這將是人類發明的最具影響力的技術,可以幫助解決許多重要的問題。但與此同時,其巨大的力量也可能非常危險,並可能導致人類喪失主權甚至滅絕。 “我們如何確保比人類更聰明的 AI 系統遵循人類的意圖?目前,我們還沒有一個解決方案來引導或控制潛在的超智能 AI,並防止其失控。我們當前調整人工智能的技術,例如根據人類反饋進行強化學習,均依賴於人類監督人工智能的能力。但人類無法可靠地監督比我們聰明得多的 AI 系統。” 他們計劃構建一個大致達到人類水平的 “automated alignment researcher”。然後使用大量計算來擴展工作,並迭代地調整超級智能。爲此,首先要做的是:1) 開發可擴展的訓練方法,2) 驗證生成的模型,3) 對整個對齊管道進行壓力測試:
Sutskever 和 Leike 表示,隨着研究的深入,預估其將來的研究重點也可能出現發生變化,甚至還可能會有新的研究領域出現。
目前,這一 Superalignment 團隊還在招募機器學習研究人員和工程師。Sutskever 和 Leike 認爲,Superintelligence alignment 從根本上來說是一個機器學習問題,因此優秀的機器學習專家對於解決這個問題至關重要。他們計劃廣泛分享團隊的研究成果,並將促進非 OpenAI 模型的一致性和安全性視爲其工作的重要組成部分。 “這個新團隊的工作是對 OpenAI 現有工作的補充,旨在提高 ChatGPT 等當前模型的安全性,以及理解和減輕人工智能帶來的其他風險,例如濫用、經濟破壞、虛假信息、偏見和歧視、成癮和過度依賴等問題。雖然這個新團隊將專注於將超智能 AI 系統與人類意圖結合起來的機器學習挑戰,但我們正在積極與跨學科專家合作解決相關的社會技術問題,以確保我們的技術解決方案考慮到更廣泛的人類和社會問題。” |