聊聊時下火熱的 AIGC 與 Web3

近期,AI 已經開始影響到了音樂行業,在 B 站搜索“AI 孫燕姿”,從流行歌曲到搖滾,從周杰倫到王力宏,沒有 AI 孫燕姿駕馭不了的歌曲。

有用戶評論:“我感覺 AI 沒把歌手幹掉,先把翻唱幹掉了。” AI 走紅“樂壇”的時間不足一個月,而 AI 繪畫對設計師的影響可不止一個月。自從 AIGC 誕生以來,AI 繪畫軟件可以在短短几分鐘內生成高質量圖像,對原畫師、設計師產生了巨大沖擊,不少公司更開始用 AI 繪畫軟件來輔助甚至替代原畫師的工作。

Web1.0到Web3.0

AIGC 那麼厲害,它會成爲 Web 3.0 時代的內容生產力工具嗎?我們先來簡單瞭解下,從Web 1.0 時代到 Web 3.0 時代,內容生產模式上有什麼變化。

Web 1.0 時代主要是單項信息傳遞的“只讀”模式。媒體形式以新浪、搜狐、雅虎、百度這類門戶網站爲主,某些特定的羣體或企業將信息單向發佈至網絡,投餵給用戶瀏覽閱讀。在這個過程中,用戶只能被動接收網站發佈的無差異信息,但不能上傳自己的反饋、進行和其他人的線上實時溝通。

到了 Web 2.0,人與人通過網絡溝通交流,各種交互多了起來。隨之而來的,是內容生產模式的改變,內容從單一的 PGC (專業生成內容)到 PGC+UGC(用戶生成內容)的結合,直到現在,UGC 已佔據了主要市場。

當我們邁入 Web 3.0 時代,人工智能、數據、語義網絡構建,形成新的人與網絡的全新鏈接,內容消費飛速增長。屆時,PGC 和 UGC 難以滿足迅速擴張的內容需求,而 AIGC 將成爲 Web3 時代的生產力工具。AIGC 的生成利用人工智能知識圖譜,在內容創作上爲人類提供協助或者完全自主生成,不僅可以提供內容生成的效率,還可以拓展內容的多樣性。或許在 Web 3.0 時代,文字生成、圖片繪製、視頻內容都由 AIGC 來完成,甚至文娛向的音樂創作、遊戲內容生成 AIGC 都能勝任。

AIGC的技術原理

AIGC 即將成爲 Web3.0 主要的內容生產者,那麼是什麼決定 AIGC 的產出質量?

AIGC 的產出質量主要有三大核心要素:數據、算法和算力。

  • 數據:海量優質的應用場景數據是訓練算法精確性關鍵基礎,數據包括語音、文本、影像等。
  • 算法:神經網絡、深度學習等算法是挖掘數據智能的有效方法。與傳統機器深度機器學習算法不同,神經網絡在學習範式+網絡結構上的迭代提升了 AI 算法的學習能力。
  • 算力:計算機、芯片等載體爲 AIGC 提供基本的計算能力。算力是基礎設施,AI 算法模型對算力有巨大需求。

說到這裏,如果還有小夥伴沒有玩過 AI 繪畫,我們之前有寫過一篇《從 0 到 1,帶你玩轉 AI 繪畫》 ,裏面詳細介紹瞭如何用 Stable Diffusion GUI 搭建自己的AI 作圖環境。搭建的時候建議大家使用 GPU 主機,可以讓一張圖片生成時間從幾十分鐘縮短到幾十秒。

AI 強大的創造能力,除了海量數據和硬件算力的支持,算法這塊離不開兩個核心技術 NLP(Natural Language Processing,自然語言處理) 和算法模型的發展。

自然語言處理NLP

自然語言處理(Natural Language Processing,縮寫作 NLP)是人工智能和語言學領域的分支學科,主要探討如何處理及運用自然語言;自然語言處理包括多方面和步驟,基本有認知、理解、生成等部分。

自然語言認知和理解是讓電腦把輸入的語言變成有意思的符號和關係,然後根據目的再處理。自然語言生成系統則是把計算機數據轉化爲自然語言。說直白點,其實就是讓人和機器交互中,能夠讓雙方都“聽得懂”。

自然語言處理有兩個核心任務,自然語言理解(NLU)和自然語言生成(NLG)。

自然語言理解 NLU

自然語言理解是研究如何讓電腦讀懂人類語言的一門技術,是自然語言處理技術中最困難的一項。自然語言理解是希望機器像人一樣,具備正常人的語言理解能力。爲什麼說自然語言理解是 NLP 上最困難的一項,我們簡單看幾個例子就知道了。

校長說衣服上除了校徽別別別的。

今天下雨,我騎車差點摔倒,好在我一把把把把住了!

今天我差點沒上上上上海的車。

這些還只是相對簡單的,還有一些更復雜的,例如:

阿呆給領導送禮。

領導:“你這是什麼意思?”

阿呆:“沒什麼意思,意思意思。” 領導:“你這就不夠意思了。”

阿呆:“小意思,小意思。” 領導:“你這人真有意思。”

阿呆:“其實也沒有別的意思。”

領導:“那我就不好意思了。”

阿呆:“是我不好意思。”

由於自然語言的多樣性、歧義性、知識依賴性和上下文,計算機在理解上有很多難點,所以 NLU 至今還遠不如人類的表現。

自然語言生成 NLG

自然語言生成系統可以說是一種將資料轉換成自然語言表述的翻譯器。不過產生最終語言的方法不同於編譯程式,因爲自然語言多樣的表達。

自然語言生成可以視爲自然語言理解的反向:自然語言理解系統需要理清輸入句的意思,從而產生機器表述語言;自然語言生成系統需要決定如何把概念轉化成語言。自然語言生成典型的 6 大步驟是:

  1. 決定內容:決定在文本里置入哪些資訊。用上一節花粉預報軟件爲例,是否要明確提到東南部花粉級數爲7。
  2. 架構文件:所傳達資訊的整體組織。例如決定先描述高花粉量地區,再提及低花粉量地區。
  3. 聚集語句:合併類似的句子,讓文本更可讀、更自然。例如合併下兩個句子“星期五花粉等級已從昨天的中級到今天的高級”和“全國大部分地區的花粉等級在6到7”成爲“星期五花粉等級已從昨天的中級到今天的高級,全國大部分地區的數值在6到7。”
  4. 選擇字詞:選用表達概念的文字。例如決定要用“中等”還是“中級”。
  5. 指涉語生成:產生能辨認物體或地區的指涉語。例如用“北方島嶼和蘇格蘭東北角”指涉蘇格蘭的某個地區。這個任務也包括決定代名詞以及其它的照應語。
  6. 實現文本:根據句法學、構詞學、正寫法的規則產生實際的文本。

算法模型

近期來,AIGC 的飛速發展主要歸功於算法領域的技術積累,其中包含:生成對抗模型(GAN)、變微分自動編碼器(VAE)、標準化流模型(NFs)、自迴歸模型(AR)、能量模型和擴散模型(Diffusion Model)。其中生成對抗模型和擴散模型是兩個非常常用的模型。

其中 GAN 模型在上次的內容裏,已經有提及,這裏就不再做介紹。有興趣的小夥伴可以看下《從 AI 繪畫到 ChatGPT,聊聊生成式 AI》這篇內容。

今天主要說下擴散模型。

擴散模型是一種新型的生成模型,可生成各種高分辨率圖像。擴散模型可以應用於各種任務,如圖像去噪、圖像修復、超分辨率成像、圖像生成等等。

擴散模型一般分爲正向擴散和反向擴散。正向擴散中,圖像逐漸被噪聲污染,直到圖像成爲完全噪聲。

在反向擴散中,則是利用馬爾科夫鏈逐步去除預測噪聲,最終恢復成圖像。

AIGC的應用場景及發展趨勢

隨着 AIGC 技術的發展,其適用面將會逐漸擴大。現在 AIGC 已經被廣泛應用在文字、圖像、音頻、遊戲和代碼生成等場景。

  • 文字創作:AIGC 主要被應用於新聞的撰寫,臺本的撰寫等等,近期有爆料說綜藝《毛血旺》也開始嘗試使用 ChatGPT 撰寫臺本。
  • 圖片創作:現在市場上已經有很多 AI 作圖的應用,用戶只需要輸入文字描述,計算機就會自動生成一張作品。
  • 視頻創作:Google 推出了 AI 視頻生成模型 Phenaki,它能夠根據文本內容生成視頻。現在市面上也有不少相關的文字生成視頻的產品。
  • 音頻創作:“AI 孫燕姿”已經大火,雖然還沒有創作相關的展現,但已經能夠看到 AIGC 在音頻創作上的應用。
  • 遊戲開發:當下,已經有一些遊戲公司將 AI 相關技術應用於遊戲中的 NPC、場景建模、原畫繪製等方面,豐富遊戲細節,包括NPC的一些微表情,大場景下的天氣變化等細節處理,大大提供玩家遊戲的沉浸感。

當下,AIGC 主要輔助人們來進行內容生產,我相信隨着技術的發展,AIGC 會介入更多的內容生產,逐漸在與人類共創作的過程中佔據更多比例。甚至在未來,AIGC 可能會顛覆現有的內容生產模式,獨立完成內容創作,爲 Web 3.0 時代帶來更多的內容生產力。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章