音視頻技術開發週刊 | 295

每週一期,縱覽音視頻技術領域的乾貨。

新聞投稿:[email protected]

微軟炸通Windows與ChatGPT全家桶!人手一個Copilot,AI宇宙降臨

三位OpenAI掌舵人親自撰文:我們應該如何治理超級智能?

OpenAI 的三位聯合創始人——CEO Sam Altman、總裁 Greg Brockman、首席科學家 Ilya Sutskever 共同撰文探討了如何治理超級智能(superintelligence)的問題。他們認爲,現在是開始思考超級智能治理的好時機了--未來的人工智能系統甚至比AGI的能力還要大。 

InstructPix2Pix: 用於圖像編輯的動態擴散模型

本文提出了一種協作擴散模型,無需重新訓練已有的單模態擴散模型便可實現多模態的人臉合成與編輯。這個方法在圖像質量和條件一致性方面表現出優越性。

FreestyleNet:自由式佈局到圖像生成

本文提出了一個基於diffusion model的框架,即FreestyleNet,其可以從給定的佈局(layout)生成包含豐富語義的圖像。

天琴實驗室發佈三項開源大模型加速版本

天琴實驗室MUSELight大模型推理加速引擎已在HuggingFace公開發布三個lyra系列模型的加速版本,具體可關注HuggingFace主頁:TMElyralab。

生成式 AI 與版權法

當下的主要問題集中在使用版權作品作爲訓練數據是否侵犯版權,以及人工智能程序的輸出是否侵犯使用圖像的衍生作品。

生成式AI,可以設計芯片了

百聞不如一試,目前PaLM 2已經在谷歌的Bard平臺上線開放公測,因此作者也嘗試使用Bard去體會了一把PaLM 2生成Verilog代碼的能力。

AIGC新玩法:任意模態輸入、任意模態輸出

使用AI技術,幫助聽力障礙者更好地生活

英特爾宣佈了幫助聽力損失者的新技術,其中包括一種可以實時轉錄語音的AI系統。系統內置於名爲 SoundWatch 的應用程序中,該應用程序使用機器學習算法來檢測和識別聲音,它還可以爲火警或門鈴等重要噪音提供警報。此外,英特爾還開發了一款新的無線耳塞原型,可以幫助用戶在嘈雜的環境中更好地聽到對話。這些新技術有可能大大改善聽力損失者的生活質量。

https://www.intel.com/content/www/us/en/newsroom/news/intel-brings-more-tech-people-with-hearing-loss.html#gs.ykq823

LIveVideoStackCon2023上海站九折期優惠進行中

https://sh2023.livevideostack.cn/tickets

電腦屏幕上的奇怪波紋究竟是什麼? 

連續可變碼率的非對稱增益深度圖像壓縮

本文提出了一個連續碼率可調的深度學習圖像編碼框架,即非對稱增益變分自動編碼器(AG-VAE)。AG-VAE利用一對增益單元在一個單一的模型中實現離散可變碼率,其額外的運算量可以忽略不計。然後,通過使用指數插值的方式,在不影響性能的情況下實現連續可變適應。

用於聯合視頻和圖像視覺變換器的稀疏視頻管

介紹了一種新的視頻分析方法,稱爲Sparse Video Tubes (SVT),可用於聯合視頻和語音處理任務。該方法使用深度學習模型來自動檢測人類行爲,並在視頻中提取出相應的運動物體軌跡。使用此技術,可以更準確地識別和跟蹤人類行爲。而且,這種技術對於機器學習算法的計算量要求較低,能夠處理更大規模的視頻數據集。

https://ai.googleblog.com/2023/05/sparse-video-tubes-for-joint-video-and.html

媒體傳輸協議的演進與未來

LiveVideoStackCon 2022北京站邀請到快手傳輸算法負責人周超,結合快手在媒體傳輸上的優化與實踐,基於快手KTP、KLP、LAS等協議和標準,爲我們介紹了媒體傳輸協議的演進與面臨的挑戰;還分享了最新的媒體傳輸標準CMTP,探索未來更多可能。

海量視頻處理的應對和算法實踐

LiveVideoStackCon 2022 北京站邀請到沐曦AI解決方案總監——虞新陽,爲大家梳理視頻處理的需求及介紹沐曦應對視頻處理場景的GPU產品等。

車載音響系統主觀音效的客觀量化

本文提出了一個連續碼率可調的深度學習圖像編碼框架,即非對稱增益變分自動編碼器(AG-VAE)。AG-VAE利用一對增益單元在一個單一的模型中實現離散可變碼率,其額外的運算量可以忽略不計。然後,通過使用指數插值的方式,在不影響性能的情況下實現連續可變適應。

神經編碼技術可以提高音頻數據恢復效率

本文介紹了一項使用神經編碼技術來提高音頻數據恢復效率的研究。與傳統的音頻編碼器相比,DARE 編碼器產生的編碼語音數據更加稀疏和冗餘,這使得丟失的音頻數據包可以更有效地恢復。通過實驗,研究人員發現,DARE編碼器和基於神經網絡的解碼器組合能夠在不損失音頻質量的情況下,顯著提高音頻數據恢復的效率。這項研究對音頻數據傳輸和存儲方面有着重要的應用價值,可以幫助提高音頻數據的可靠性和安全性。

https://www.amazon.science/blog/neural-encoding-enables-more-efficient-recovery-of-lost-audio-packets

NVIDIA 視頻編解碼器 SDK 加速了新的視頻創建和流媒體功能

介紹了NVIDIA Video Codec SDK的最新功能,該SDK是一組用於視頻編解碼的API,其中包括實時視頻編碼、快速GPU加速轉碼以及基於AI的視頻增強。此外,該SDK還支持使用CUDA進行硬件加速的視頻渲染和處理,可以幫助開發人員提高視頻編輯和流媒體應用程序的性能和效率。

https://developer.nvidia.com/blog/new-video-creation-and-streaming-features-accelerated-by-the-nvidia-video-codec-sdk/

ffplay 播放器源代碼分析

ffplay 是 FFMpeg 自帶的播放器,使用了 ffmpeg 解碼庫和用於視頻渲染顯示的 sdl 庫,也是業界播放器最初參考的設計標準。本文對 ffplay 源碼進行分析,試圖用更基礎而系統的方法,來嘗試解開播放器的音視頻同步,以及播放/暫停、快進/後退的控制原理。

音視頻編解碼--多媒體格式系列開篇

DeepRS:用於實時視頻通信的基於深度學習的網絡自適應 FEC 

---提出了一種新的 FEC 算法 DeepRS,它利用深度神經網絡預測網絡丟包,動態調整冗餘率,顯着提高 FEC 方案的效率。DeepRS應用 RS 編碼算法對視頻塊進行編碼,並提出了一種基於長短期記憶(LSTM)網絡的丟包預測方法。在總冗餘率固定的情況下,DeepRS 的恢復率比對比算法高 70%,並且 DeepRS 可以在任何網絡動態下實現自適應 FEC 冗餘。

ChatGPT浪潮下,看中國大語言模型產業發展

本篇報告將着重分析“ChatGPT的成功之路”、“中國類ChatGPT產業發展趨勢”、“ChatGPT應用場景與生態建設”、“ChatGPT浪潮下的‘危’與‘機’”四個問題。

Microsoft Mesh:改變人們在現代工作場所的互動方式 

微軟推出新技術 Microsoft Mesh,旨在通過混合現實、虛擬現實和增強現實等技術,改變人們之間互動和協作的方式。Microsoft Mesh 將提供一個跨平臺的生態系統,允許用戶在不同設備上共享虛擬空間,並進行實時協作。文章還介紹了一些具體應用場景,比如在遠程辦公、教育、社交娛樂、醫療等領域中使用 Microsoft Mesh 可以帶來很多便利和創新。

https://techcommunity.microsoft.com/t5/microsoft-teams-blog/microsoft-mesh-transforming-how-people-come-together-in-the/ba-p/3824898

實時互動下視頻 QoE 端到端輕量化網絡建模

LiveVideoStackCon 2022北京站邀請到鄭林儒老師爲我們介紹視頻體驗數據庫的建立、視頻畫質評估建模及其端上輕量優化。

流媒體不關心共享賬號——一切都取決於定價 

作者提出了一個有趣的觀點:流媒體服務商其實並不太在乎共享賬號,因爲他們更關心的是價格。文章指出,共享賬號可能會導致一些潛在的收入損失,但相對於流媒體服務的總收入來說,這個影響並不大。相反,如果流媒體服務定價太高,用戶就會更傾向於共享他們的賬號和密碼。因此,作者建議,流媒體服務商應該更關注定價策略,以便提供具有吸引力的價格,從而減少用戶共享密碼的動機。

https://www.streamingmedia.com/Articles/Post/Blog/Streamers-Dont-Care-About-Password-Sharing---It-All-Comes-Down-to-Pricing-158768.aspx




掃描圖中二維碼或點擊“閱讀原文 

查看更多LiveVideoStackCon 2023上海站精彩話題

本文分享自微信公衆號 - LiveVideoStack(livevideostack)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章