“千帆杯”第二期十萬大獎花落誰家?TOP10名單出爐!


千帆杯AI原生應用開發挑戰賽第二期賽題“賀歲靈感模型”已於2月28日圓滿結束。經過嚴格的自動評估和人工複審後,現已決出TOP10選手!


第二期賽題,結合新春佳節的背景以“賀歲靈感模型”爲主題,鼓勵開發者使用千帆ModelBuilder,基於ERNIE Speed模型打造一個春節文案創作的精調模型,在通過對模型精調使其保持原有能力的同時,還能準確理解和執行文案創作,幫助用戶成爲春節檔“最強賀歲文案專家”。

本期賽題主要通過千帆ModelBuilder工具鏈中“模型評估”的部分能力以及人工評估做整體評審,全方位保證評審結果的公平、公正、公開。


>>第一輪:自動評估(滿分1分)


“內容分”和“字數控制分”爲主要考覈指標,兩項標準分別佔據0.6、0.4的權重,通過加權平均後,得出“選手模型”的作品分數。


  • 內容分(佔據0.6權重):官方輸入包含內容及字數要求的評測數據集,以ERNIE Bot 4.0作爲裁判,如果“選手模型”答案比數據集答案更好則得分,反之則不得分。如果ERNIE Bot 4.0沒有明確返回評測數據集答案更好,均算作“選手模型”得分。


  • 字數控制分(佔據0.4權重):基於官方評測數據集的字數要求,根據“選手模型”的全量回答綜合得出最終字數控制評分。


  • 具體規則:根據 “選手模型”答案字數與評測數據集中字數要求的diff進行分段打分,具體分段分數如下:


  • diff ≤ 0.05,得1分
  • 0.05 < diff ≤ 0.1,得0.9分
  • 0.1 < diff ≤ 0.15,得0.8分
  • 0.15 < diff ≤ 0.2,等0.7分
  • 0.2 < diff ≤ 0.25,得0.6分
  • 其餘則不得分


舉例:如評測數據要求爲300字,選手模型返回290字,則diff爲:(300-290)/300=0.033,最終得分因0.033 ≤ 0.05,因此在該評測數據下字數控制得1分。


>>第二輪:人工評估(滿分1分)


爲了保證自動評估的結果,官方針對自動評估得出的TOP 12“選手模型”安排了第二輪人工評估。(由於選手比分較爲接近,因此官方對TOP 12“選手模型”進行人工評估


人工評估由三位百度專家通過人工查驗的方式進行,專家通過對參賽選手所提供的模型微調方案進行投票(一位專家最多可投3票),如選手獲得三票,即獲得滿分。


“千帆杯”第二期

「最強挑戰者」出爐

第二期最強挑戰者張輝,帶來作品“賀歲靈感模型”,張輝使用ModelBuilder的模型SFT精調工具鏈,基於ERNIE Speed基座模型,精調訓練出了一個能準確控制創作字數的春節賀歲文案模型。


ERNIE Speed模型作爲百度在2024年最新發布的自研高性能大語言模型,憑藉其輕量級、高效的自然語言處理等特點,可以快速地響應用戶需求。同時,其在微調場景下優勢顯著,模型的訓練時間更短,成本更低,特定場景下的效果可媲美ERNIE Bot 4.0。


2月發佈上線以來,目前已有超過150家企業採用了ERNIE Speed模型,它除了能做到快速響應外,作爲基礎通用大模型,在閱讀理解、close-book問答、創作與續寫等複雜任務上,也能達到甚至超越千億大模型的效果。每一位開發者,都可以在ERNIE Speed的助力下,快速實現企業級的專屬模型訓練,探索AI大模型的無限可能。

更多AI的想象

值得期待



3月21日,百度智能雲將在北京舉行AI Cloud Day:百度智能雲千帆產品發佈會。作爲2024年AI領域最值得期待的系列產品發佈會,誠摯邀請所有技術愛好者共襄盛舉。屆時,百度智能雲千帆ModelBuilder和AppBuilder也將公佈最新產品進展,發佈系列新模型以及應用開發工具組件等,分享如何助力企業、用戶釋放模型創新潛能,簡單高效打造AI原生應用,推動中國AI原生應用的發展,共同邁入嶄新的AI生產力的最新紀元。


本文分享自微信公衆號 - 百度開發者中心(baidudev)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章