【重磅乾貨】大模型時代,開發者雲上成長指南

本文分享自華爲雲社區《【重磅乾貨】大模型時代,開發者雲上成長指南》,作者:華爲雲社區精選。

2024年最熱的技術關鍵詞,非大模型莫屬。面對這樣一個超級“技術網紅”,在一切皆可大模型的時代,開發者能否緊跟它的發展步伐,立於技術的潮頭顯得至關重要。

如何充分利用雲上的基礎設施,讓大模型開箱即用?
如何藉助輔助開發工具,讓代碼編寫過程更加高效,事半功倍?
當行業應用遇上大模型,會碰撞出怎樣的創意火花?
……

綜合權威機構發佈的大模型相關的技術趨勢洞察,我們精選了四大熱門技術方向,並輔之以華爲雲相關技術服務作爲典型案例,幫助開發者釐清大模型時代需要掌握的關鍵技術, 通過這份大模型開發者成長指南,助力大家在這波技術熱潮中先人一步。

AI增強開發——CodeArts Snap寫代碼事半功倍

當大模型技術應用到軟件開發領域,它正在顛覆傳統的軟件工程,在Gartner的2024技術趨勢報告中,提到了AI增強開發,它指的是用生成式AI、機器學習等AI技術協助軟件開發人員精選應用設計、編碼和測試。

CSDN發佈的《AI開發者生態報告》中提到,近90%的開發者已經使用代碼生成工具; 其中,35%的開發者每天都使用代碼生成工具。

毋庸置疑,大模型正在開啓軟件開發的新範式,尤其是在自動化方面,基本上超越了傳統工具,爲軟件研發效率的提升帶來質的變化。編程和應用開發的門檻逐漸降低,應用開發能力便捷逐漸擴展,全民開發者的時代正在來臨。

但與此同時,由於生成的內容難以限制,一些“不安全”或者“不應該”出現在生成結果中的代碼會出現在生成結果中,導致市場上各AI輔助編程工具質量不一。

源於華爲自身的研發實踐,華爲雲基於大模型技術,學習了1300多萬篇經典的技術文檔、760億行精選代碼,打造了智能開發助手CodeArts Snap。

它基於智能生成和智能問答兩大核心場景提供了支持多種主流IDE的插件,覆蓋代碼生成、研發知識問答、單元測試用例生成、代碼解釋、代碼註釋、代碼翻譯、代碼調試、代碼檢查等八大研發場景。

CodeArts Snap的代碼生成,就像一位聰明的機器人,開發者在編寫重複性代碼、快速原型開發等多個場景中只需輸入自然語言,就能生成完整代碼邏輯,並準確率最佳。它的代碼解釋專治開發者的“閱讀困難症”,無論是學習新編程語言、分析他人代碼,還是優化代碼、故障排除,即可將代碼複製黏貼到工具中,實現快速分析代碼並自動生成詳細的解釋文檔。

靈感到代碼只需“彈指間”即可實現。

華爲雲CodeArts Snap的“全場景代碼智能生成”能力,其核心技術沉澱於華爲雲PaaS技術創新Lab與華爲諾亞方舟實驗室聯合打造的PanGu-Coder代碼大模型中。比如,針對函數級的代碼生成與補全任務,CodeArts Snap分別發佈了參數量爲3億和26億兩個規模可用的生成功能。當給定函數名並用自然語言描述需要實現的功能後,模型即可生成完整的函數功能代碼。

同時,CodeArts Snap在各階段均採取了針對性措施,有效規避了業界產品普遍帶來的編程安全隱患。例如爲避免開源代碼帶來的系統性風險,在數據預處理階段,預訓練數據對可能產生問題的licence涉及的代碼進行了精細的過濾,從根本上杜絕開源licence風險。

Codearts Snap現在已經開啓了公測,已經有一些開發者在華爲雲開發者社區分享了他們的👉 體驗心得,也歡迎開發者👉 前來體驗

行業大模型——盤古大模型讓企業開發者更高效

垂直領域應用是大模型的主戰場。隨着生成式AI技術的飛速發展,各行各業都將迅速整合大模型的能力創造全新的應用,催生出全新的商業價值。

華爲雲盤古大模型正式對外發布以來,也一直頗受關注,盤古大模型提供5個基礎大模型(自然語言、視覺、多模態、預測、科學計算)+N個行業大模型+X個場景模型的三層解耦架構, 天然具備良好的生態開放性,通過分層的AI能力及工具,成就不同行業開發者百模千態的需求。

其中,華爲雲L0盤古基礎大模型提供100多個能力集,各項能力集互相解耦,可以通過API直接調用。企業開發者可以根據業務場景需要,選擇所需的能力集,使用盤古大模型工作流,快速開發行業場景應用。也可以在L0或L1盤古大模型的基礎上,通過對自有數據的二次訓練快速訓練出自己專屬的行業大模型。

爲了加速和簡化行業大模型從開發到落地,華爲雲還提供了盤古大模型工程套件,包括數據工程、模型開發和應用開發三大套件, 基於此,完成一個千億行業模型端到端開發,從過去需要5個月縮短到現在1個月,整體速度提升5倍。

在氣象領域,華爲雲盤古氣象大模型已正式上線歐洲中期天氣預報中心和香港天文臺地球官網,並攜手深圳市氣象局、泰國國家氣象局等打造高精度區域氣象預報大模型,利用人工智能技術提升氣象災害預警能力。在2023年汛期,盤古氣象大模型成功預測了瑪娃、泰利、杜蘇芮、蘇拉等強颱風路徑。

除此之外,盤古大模型在醫療行業的落地,讓醫生爲患者提供更高效的健康管理服務;在電商行業智能化生成產品文案、廣告創意,讓跨境電商的生意更好做……

開發者可以👉 點擊鏈接前往申請體驗試用盤古大模型。

向量數據庫——GaussDB向量數據庫是大模型的超級“外腦”

大模型時代,爲了支持模型的高效運行,開發者需要掌握雲原生基礎設施技術。這波洶湧而來的大模型浪潮,也必然會催生基礎設施的革新,其中最具有代表性的就是數據庫的升級。

基於海量數據訓練而來的大模型,往往會遇到一些令人啼笑皆非的問題,比如對不知道的知識一本正經的胡說八道,或因爲訓練的時間的滯後導致無法獲取到最新實時的知識,從而給出過時的答案。

面對大模型在訓練過程中出現的準確性和實時性難題,向量數據庫是最佳的選擇。它是一種專門用來處理向量嵌入(Vector Embedding)的數據庫,通過比較向量值並找到彼此相似的值來索引和檢索數據,適用於處理如文檔、圖像、視頻和網頁等非結構化數據。

如果把大模型比作人的大腦,那麼向量數據庫就如同大模型的“外腦”。

  • 在實時性方面,向量數據庫可滿足秒級甚至毫秒級數據更新的需求,解決大模型預訓練或微調都需要天甚至月級以上時間,導致知識庫新鮮度相對滯後的問題,減少大模型的“幻覺”。

  • 在隱私性方面,通過向量數據庫本身的權限控制,能真正實現隱私數據自主可控不出端。只需使用通用大模型外掛向量數據庫,即可解決私有數據注入大模型帶來的安全和隱私問題。

  • 在上下文限制方面,向量數據庫具備歷史數據持久化的能力,同時持久化的數據可以通過內置的ANN算法做相似性查詢,返回最相關內容,從而突破大模型上下文限制,實現長期記憶。

華爲雲在向量數據庫和DB4AI領域積累頗深,從2018年開始就啓動以圖搜圖項目,儲備了相關技術,並於2023年正式對外發布華爲雲GaussDB向量數據庫。

GaussDB向量數據庫結合語義Embedding技術,能基於客戶實際的文檔和規範回答問題,結果更準確。並且可以將已推理過的問題進行緩存,當相同問題再出現時,不需要經過大模型推理即刻返回結果,大幅減少算力成本。

與業界主流向量數據庫相比,GaussDB向量數據庫具備千億級大規模向量數據快速查詢更新的能力,檢索規模提升10倍;內置ANN-Benchmark榜單性能排名第一的華爲ANN索引算法,查詢時延<10ms,響應速度提升2倍;且具有千維查詢能力,查詢結果更精準。

當前,已使用GaussDB數據庫的開發者可以通過升級體驗GaussDB向量數據庫的所有功能,實現無感知式擴容和一站式部署,降低學習和部署成本。同時,GaussDB數據庫生態成熟、社區活躍,相關的工具和擴展十分成熟可靠,👉 點擊鏈接前往讓向量數據庫的使用無後顧之憂。

AI算力——昇騰AI雲服務助力開發者落地大模型應用

根據CSDN發佈的《AI開發者生態報告》調查,除了大模型技術,生成式AI、算力也是開發者最關注的技術突破方向之一。

算力是訓練大模型的基礎,大模型的湧現,使得AI算力的需求出現指數級的增長。研究表明,大參數量、大數據量、大計算量已經成爲大模型表現好的主要因素。

在infoq發佈的《中國軟件技術發展洞察和趨勢預測研究報告》中,提到了雲forAI新階段:在AI模型訓練和應用生成的過程中,更要充分利用雲的資源彈性,對異構算力的便捷管理能力等技術手段,提供工程高效率、成本可觀測、彈性可預測、結果可複製的AI模型生成流水線。

爲支持百模千態穩健發展,華爲雲在貴安、烏蘭察布、蕪湖3大AI算力中心上線了昇騰AI雲服務,讓AI算力即開即用。

華爲雲昇騰AI雲服務支持萬卡超大規模集羣,萬億級參數大模型分佈式並行訓練,大幅提升訓練效率;提供更長穩的AI算力服務,千卡訓練30天不中斷,長穩率達到90%,斷點恢復時長不超過10分鐘;提供盤古大模型100+能力集、100+內化後的開源大模型,讓大模型開箱即用。

爲了釋放昇騰硬件算力,昇騰AI異構計算架構CANN發佈更開放、更易用的CANN 7.0版本, 全面兼容業界的AI框架、加速庫和主流大模型,同時通過大顆粒算子深度融合、Kernel調度策略優化、通信併發流水等技術手段,解決大模型訓練核心問題,使能大模型性能深度優化。

同時升級昇騰Ascend C編程語言,提供大模型融合算子開發能力,可支撐周級完成大模型典型融合算子開發,性能同比單算子提升5倍以上。Ascend C遵循C/C++標準規範,並通過編譯器編譯和運行時調度,直接運行在昇騰系列硬件,可高效實現自定義創新算法。

 

爲了讓開發者能夠更加便捷地將AI算力應用實踐到各種創新場景,華爲聯合香橙派發布了基於昇騰的Orange Pi AIpro, 提供8/20TOPS算力,能覆蓋生態開發板者的主流應用場景。滿足大多數AI算法原型驗證、推理應用開發的需求,可適用於AI邊緣計算、深度視覺學習及視頻流AI分析、視頻圖像分析、自然語言處理、智能小車、智能家居等領域,👉 點擊鏈接前往快速上手Orange Pi AIpro。

當前,華爲雲的AI Gallery社區已經聚合數據集、模型、實踐3大類等10萬+AI資產,其中的昇騰AI雲服務“百模千態”專區,提供基於異騰AI雲服務適配的業界主流開源大模型, 易用開發工具和超強算力,豐富的應用開發工具鏈已經全部實現了雲化,免去繁瑣的配置流程,實現一鍵接入,即開即用助力開發者快速創建模型應用,👉 點擊鏈接前往

最後

大模型的湧現,我們得以窺見技術的無限潛能。它不僅在實際應用中顯著提升了開發者的工作效率,也預示着通用人工智能時代的迫近。“工欲善其事,必先利其器”,在技術奇點即將來臨的時刻,開發者們更應深入理解與其相關的前沿技術,華爲雲將持續助力企業和開發者創建自己的大模型應用,在大模型時代先人一步。

 

點擊關注,第一時間瞭解華爲雲新鮮技術~

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章