音視頻技術開發週刊 | 312

每週一期,縱覽音視頻技術領域的乾貨。

新聞投稿:[email protected]


RLHF何以成LLM訓練關鍵?AI大牛盤點五款平替方案,詳解Llama 2反饋機制升級

AI領域日新月異,RLHF也逐漸成爲過時的技術,但新路線尚不明朗:應該採用無需人工的反饋,還是繼續改進RLHF機制?

ChatGPT啓發,谷歌DeepMind預測7100萬基因突變!AI破譯人類基因遺傳密碼登Science

AlphaFold之後,谷歌DeepMind再次震撼發佈AI模型AlphaMissense,成功預測7100萬「錯義突變」,有望攻克人類遺傳學難題。


「深呼吸」讓大模型表現更佳!谷歌DeepMind利用大語言模型生成Prompt,還是AI更懂AI

谷歌DeepMind提出了一個全新的優化框架OPRO,僅通過自然語言描述就可指導大語言模型逐步改進解決方案,實現各類優化任務。


GPT-5來了?OpenAI被曝加急訓練多模態大模型Gobi,一舉狙殺谷歌Gimini!

多模態大模型的戰場上,已有人聞到風聲。據外媒爆料,OpenAI的全新多模態模型Gobi似乎已在籌備中。谷歌和OpenAI的這場對決,似乎已是箭在弦上了。

破解一切模態,無限接近AGI!新加坡華人團隊開源全能「大一統」多模態大模型

繼各類輸入端多模態大語言模型之後,新加坡國立大學華人團隊近期開源了一種支持任意模態輸入和任意模態輸出的「大一統」多模態大模型,火爆AI社區。

LLM在放射科學中應用潛力如何?數十家研究機構聯合測試了31個大模型

本論文在全球範圍內評估了 31 個大型語言模型 (LLM) 在解讀放射科報告並從放射學發現中推導出診斷信息(impression)任務上的表現。這是目前已知的對全球 LLM 用於放射科學自然語言處理 (NLP) 進行的最全面評估之一。該研究通過在這個關鍵的放射科 NLP 任務上對海外和中國研發的主流 LLM 進行基準測試,填補了該領域目前的知識空白。

比GPT-4還強,20億參數模型做算術題,準確率幾乎100%

當前,大型語言模型 (LLM) 在處理 NLP 領域的各種下游任務方面已經表現出卓越的能力。特別是,GPT-4、ChatGPT 等開創性模型已經接受了大量文本數據的訓練,使它們具備強大的文本理解和生成能力,能夠生成連貫且上下文相關的響應,在各種 NLP 任務中具有高度通用性。


東北大學發佈Sttracker:用於3D單目標跟蹤的時空跟蹤器

相比於輸入兩幀點雲,本文輸入多幀點雲對目標的時空信息進行編碼,隱式地學習目標的運動信息,可以建立不同幀之間的相關性,高效地跟蹤當前幀中的目標。同時,與直接使用點特徵進行特徵融合不同,首先將點雲特徵裁剪成多個面片,然後使用稀疏注意力機制對面片級相似度進行編碼,最後融合多幀特徵。大量實驗表明,本文方法在挑戰大規模基準測試集( KITTI中62.6%, NuScenes中49.66 %)上取得了有競爭力的結果。 

由粗到精學習LVI-SAM:論文原文精華解析

本文是LVI-SAM學習系列的第三部分,在深入分析LVI-SAM源碼之前閱讀論文原文,可以在分析源碼遇到困難時明確思路,少走彎路,提高源碼分析效率。

北理工開源TDLE: 利用區域劃分進行分層規劃的2D激光雷達探索

探索系統對於增強機器人的自主性至關重要。由於未來規劃空間的不可預測性,現有方法要麼採用低效的貪婪策略,要麼需要耗費大量資源來獲得全局解。在這項工作中,本文解決了以最少的計算資源獲得全局探索路線的挑戰。分層規劃框架動態地將規劃空間劃分爲子區域並排列其順序,爲探索問題提供全局的指導。使用與次區域順序一致的指標來選擇特定的探索目標,從而考慮空間結構的估計,並將規劃空間擴展到未知區域。大量的仿真和實地測試證明了我們的方法與現有的基於2D LiDAR的方法相比的有效性。

浙大高飛團隊發佈:一種用於任意形狀機器人規劃的快速準確的整體碰撞評估工具

浙江大學高飛團隊發佈Robo-Centric Esdf:一種用於任意形狀機器人規劃的快速準確的整體碰撞評估工具。


硬件持續內卷、內容領域升溫,3D賽道再掀浪潮

年初AI爆火,吹來了第一波風,引發了業內對3D內容創作的高度關注;6月,蘋果推出Vision Pro宣稱進入「空間計算時代」,而3D則是進入「空間計算時代」的關鍵鑰匙之一,3D內容市場的賽道再次動盪。

Quest 3在線文檔透露將能提供更好的MR 3D空間交互體驗

能夠利用網格數據和深度數據的Quest 3將能大大提升掃描體驗,實現具有立體感的逼真虛擬對象,以及與虛擬對象的逼真交互。

Meta第二代智能眼鏡Ray Ban Stories通過FCC認證,有望9月27日發佈

根據美國聯邦通信委員會公開信息,註冊人爲Luxottica Group,產品名爲Ray-Ban Stories的全新智能眼鏡設備已經通過FCC認證。這意味着由Meta和雷朋母公司Luxottica Group合作的第二代Ray-Ban Stories有望在9月27日的Connect大會正式亮相。

Meta AR/VR專利分享通過手腕式穿戴設備來檢測手勢

Meta認爲,在XR中通過手勢滾動列表和瀏覽內容而非採用控制器會增強用戶移動體驗。所以,團隊申請了一份名爲“Scrolling and navigation in virtual reality”的專利。其中,除了通過頭顯的手部追蹤來識別手勢之外,Meta表示同時可以通過手腕式可穿戴設備來檢測手勢。


英特爾發佈新芯片,288核至強在路上

北京時間9月20日凌晨,英特爾在舊金山舉行了隆重的“Intel Innovation”盛會。會議開始的時候,英特爾CEO帕特基辛格首先表示,AI代表新時代的到來,創造了巨大的機會。如今,芯片形成了規模達5740億美元的行業,並驅動着全球約8萬億美元的技術經濟。

芯片正在走向原子級

全世界都在不停地談論芯片,但令人興奮的是配料——原子大小的晶體管,當它被雕刻、分層和格子化成半導體納米宇宙時,賦予微芯片深不可測的精湛技藝。相比之下,芯片只是從硅片上雕刻出來的清晰可見的小塊。

Jim Keller的芯片新思考

凱勒曾在英特爾和特斯拉等科技巨頭擔任“芯片大師”,現在他利用自己多年的經驗來開發由稱爲 Tensix 核心的核心網格組成的處理器。這些設備包括直接通過網絡而不是通過 DRAM 與其他處理器“對話”的網絡通信硬件。


利用一致性蒸餾加速基於擴散的文本-音頻生成

擴散模型支持絕大多數文本到音頻生成。但是,由於對底層去噪的迭代查詢,這些模型的參考速度很慢 ,因此不適合具有推理時間或計算約束的場景。這項工作修改了最近提出的一致性框架,以訓練只需要的TTA模型單個神經網絡。

https://arxiv.org/pdf/2309.10740v1.pdf

聲源定位完全是關於跨模式對齊

人類可以很容易地感知到視覺場景中聲源的方向,稱爲聲源定位。目前基於學習的聲源定位研究主要是從的定位角度來探討這個問題。然而,現有技術和現有基準並沒有考慮到問題的一個更重要的方面,即跨模態語義理解,這對於真正的聲源定位至關重要。跨模態語義理解對於理解語義不匹配的視聽事件非常重要,例如,無聲物體或屏幕外的聲音。爲了解釋這一點,本文提出了一個跨模態對齊任務,作爲聲源定位的聯合任務,以更好地學習音頻和視覺模態之間的相互作用。

https://arxiv.org/pdf/2309.10724v1.pdf

Audition RMS計算原理解析

分貝(deci-Bel, dB)是語音中一個比較常見的概念,經常聽別人說聲音多少dB,但是有時候會發現,dB一會兒是正的一會兒是負的。這個聲音25歲以上聽不到這篇文章中講過幾種dB的區別,正的dB用分貝儀測量,負的dB用音頻軟件(如Audition)查看,那麼Audition等音頻軟件展示的dB是如何計算出來的呢?本文介紹下這個簡單的問題。

我國標準率先突破無線音頻傳輸限制,全球首個統一架構、全碼率無線音頻編解碼標準 L2HC 發佈

全球首個統一架構、全碼率無線音頻編解碼標準L2HC今日正式發佈,最高支持 1920Kbps 傳輸碼率,超過蘋果 AAC、索尼 LDAC、高通主導的 aptX Lossless 等標準。據介紹,華爲FreeBuds Pro 3是首款支持L2HC智能無損音頻編解碼標準的產品,全球首發1.5Mbps無損音質體驗,支持64K-1920Kbps、96kHz / 24bit 音頻。


實時雲渲染與直播應用場景結合技術探索

隨着互聯網以及終端設備的全面發展,直播在日常的生活中已經越來越常見。越來越多的人開始在直播中與主播互動,作爲一種娛樂消遣的方式。但是有些直播平臺頻發的卡頓以及打賞特效的單一會讓用戶的直播體驗大打折扣。LiveVideoStack邀請到騰訊雲的江敏爲我們介紹騰訊雲如何將雲渲染應用在直播場景中,爲直播帶來更好的體驗。

Unity雲原生分佈式運行時

元宇宙時代的來臨對實時3D引擎提出了諸多要求,Unity作爲遊戲行業應用最廣泛的3D實時內容創作引擎,爲應對這些新挑戰,提出了Unity雲原生分佈式運行時的解決方案。LiveVideoStack 2023上海站邀請到Unity中國的解決方案工程師舒潤萱,和大家分享該方案的實踐案例、面臨的問題、解決方式,並介紹了Unity目前對其他方案的構想。

AVS感知無損壓縮標準概述——視覺無損質量等級視頻淺壓縮

淺壓縮又稱夾層壓縮,是一種視頻壓縮級別,可以有效降低視頻帶寬,並能保持視頻整體質量,壓縮比通常爲2:1到8:1。根據這一壓縮比,4K、8K節目都可以用10G接口進行傳輸,這極大降低了網絡設備成本。LiveVideoStackCon 2023上海站邀請到楊海濤老師爲我們介紹AVS標準組以及上海海思等硬件廠商在無損質量等級視頻淺壓縮領域的實踐與探索。

Caton Media Xstream: 重新定義實時內容交付服務

隨着公共互聯網愈加複雜,best effort的基本原型已無法滿足越來越多的有QoS保障需求的實時內容交付服務。而專線、衛星等傳統解決方案存在部署成本高、週期長等問題,無法快速響應各類需求。LiveVideoStackCon邀請到了科騰科技的魏凌,爲我們介紹Caton Media Xstream平臺的解決方案。


泛娛樂出海征程:道阻且長,技術領航

泛娛樂出海,日趨成爲一條風起潮湧、一日千里的黃金賽道。

音視頻新紀元:AIGC如何顛覆傳統?

在過去的三年中,我們見證了人類日常生活和工作方式的顛覆性變革。從短視頻、互動直播到在線教育和雲上會議,音視頻技術不僅滲透到各個角落,而且已經深入地影響了各行各業的運作方式。

獲NBA正版授權,維亞VR投籃街機能否引爆線下娛樂市場?

VR娛樂以及硬件開發商維亞科技環球有限公司(後簡稱維亞 )開發了一款線下VR投籃街機,團隊希望能以VR技術取代傳統投籃機,讓玩家在沒有籃球的情況下也能體驗投籃的樂趣。


“講師天團”招募過半,寶藏講師等你來pick!

如果你希望參與到音視頻技術大會當中,此刻剛剛好:LiveVideoStackCon 2023深圳站大會,門票限時9折火熱售賣中,團體參會優惠更多,此刻報名,與您相約深圳。
●時間:2023年11月24日-25日
●地點:深圳聖淘沙酒店(翡翠店)
●獲票方式:掃描上方海報二維碼,或諮詢:13520771810(微信同號)瞭解詳情。
●官方鏈接:
https://sz2023.livevideostack.com/topics

點擊閱讀原文 


跳轉LiveVideoStackCon 2023 深圳站 官網,瞭解更多信息

本文分享自微信公衆號 - LiveVideoStack(livevideostack)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章