Vokenization：一種比GPT-3更有常識的視覺語言模型

原創

2020-11-18 15:08

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"學習人工智能，最好的辦法就是先考上大學，學好計算機和數學，其次就是生個孩子。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這可不是一個段子。有了孩子之後，你會能更好理解人工智能到底是如何發生的。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"看着一個牙牙學語的小嬰兒開始對這個世界發生好奇，終於有一天開始指着一個毛茸茸的東西叫出“貓咪”的時候，你可能就會理解教會一個孩子說話並不比教會人工智能認出一隻貓更容易。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/d0/d056f3904697aca2895f82b8d39cd1cd.jpeg","alt":null,"title":null,"style":null,"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"人工智能靠大量的算力和數據，而人類靠着五感，還有我們那個低功率的大腦。不過，很快你就會對小孩子的學習能力驚訝不已，他會指着各種他不認識的東西問你“這是什麼”，直到你不勝其煩。等到再長大一些，小孩子就不會滿足於僅僅知道這些東西的名字，開始想你發問“爲什麼會這樣”，再次把你問到山窮水盡。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我們知道，現在人工智能領域，圖像識別和自然語言處理（NLP）正處在如日中天的發展階段。在衆多單項上面，圖像識別的能力要遠遠高於普通人，甚至比專家還好，NLP的翻譯、聽讀、寫作能力更是與專業人士不相上下，特別今年推出的GPT-3，更是以超大參數規模這種氪金方式來實現逆天的寫作能力。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"但這又怎樣？儘管GPT-3可以編造出一大段看起來很真實的假新聞，但它仍然是靠着過去的文本經驗來認知世界的，它會在很多常識性的問題上犯下低級錯誤，比如在回答“太陽有幾隻眼睛”的反常識問題上，GPT-3照樣一本正經的給出“太陽有一隻眼睛”的答案。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如果是一個人第一次碰到這種問題，它往往並不是從文本里找答案，而是真的會去看一眼太陽的。而這正是我們人類掌握語言、傳遞信息最常見的一種方式。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/50/508998888976ab0474a2d4ef5b3fa10a.jpeg","alt":null,"title":null,"style":null,"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"受此啓發，最近北卡羅來納大學教堂山分校的研究人員設計了一種新的AI模型來改變GPT-3的這種缺陷，他們把這一技術稱之爲“Vokenization”，可以賦予像GPT-3這樣的語言模型以“看”的能力。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這個思路很好理解，我們從來不是靠一種方式來認識世界的，而把語言處理和機器視覺聯繫起來，才能更好地讓人工智能來接近人的認識能力。那麼這種“Voken”技術到底好不好用，正是本文要重點介紹的。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"無所不能的GPT-3，卻“不知道自己在說什麼”","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"今年5月份正式出道的GPT-3，一度成爲“無所不能”的代名詞，OpenAI推出的這個第三代NLP語言模型，包含1750億個參數，採用了英文維基百科、數字化圖書、互聯網網頁等超大規模語料進行訓練，是現有的規模最大、也最複雜的語言模型。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/09/097c6ba5f140a776288ac12cd09594a5.jpeg","alt":null,"title":null,"style":null,"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"從GPT-3對外API接口開放之後，研究者就從GPT03的強大文本生成能力中挖掘出層出不窮的應用，從答題、寫小說、編新聞到寫代碼、做圖表等等。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"但GPT-3也印證了“出道即巔峯”這句話，也是從一開始就爭議不斷。人們對其實際的應用前景表示極大的懷疑。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我們複習下GPT-3的作用原理。GPT-3採用的是少示例（Few-shot）學習的方式，對於一個特定的語言任務，只需要給定任務描述，並給出幾個從輸入到輸出的映射示例，甚至只是給出一個開頭的文本，GPT-3就可以根據前景預設自動生成相關下文，以此來完成對話、答題、翻譯和簡單的數學計算等任務。GPT-3的優勢就在於預訓練模型不需要使用大量標記的訓練數據進行微調，這種便利性爲普通人進行相關語言任務的使用上消除了障礙。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"儘管GPT-3在很多領域的表現都令人折服，文本的質量高到能騙過大多數人類（無法分辨到底是機器寫的還是人類寫的），但是GPT-3本身的缺陷仍然非常明顯。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"事實上，GPT-3的訓練方式決定了它並不是真正理解“語義”，而是能夠基於龐大的語料數據，進行海量搜索，匹配相應的答案。在這一過程中，GPT-3只是通過純粹統計學的方法“建立起聯繫”，但是並沒有真正理解語義。比如在一個幫助患者減輕焦慮情緒的問答中，“患者”表示感覺很糟，想要自殺的時候，GPT-3直接回復了“你可以”。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/62/62e9be463fade85b88011ebd371175d8.jpeg","alt":null,"title":null,"style":null,"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"GPT-3的問題就像是上世紀80年代John Searle提出的“中文屋實驗”裏的那個並不懂中文的翻譯者，GPT-3也只是手握着一本“無所不知”的百科全書，但是它並不清楚這個世界運行的真實邏輯，更無法解決具體場景下的具體情況。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/cc/cc73a96e706e2f3abb05ed7d79b5cc2d.jpeg","alt":null,"title":null,"style":null,"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"之前，紐約大學的兩位教授就聯名指出人們對GPT-3作用的高估，在《傲慢自大的 GPT-3：自己都不知道自己在說什麼》裏提到，它（GPT-3）本身並不具有 “革命性” 的變化，也不能真正理解語義，如果某項工作的 “結果” 非常重要，那麼你不能完全信任人工智能。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"簡單來說就是，人工智能如果想要突破文本的統計意義而理解語義，那就必須要將文本和現實世界建立起聯繫。顯然，這一點GPT-3還不能做到。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"爲了能夠讓語言文本和實際的世界建立起聯繫，研究人員決定將語言模型和機器視覺結合起來，研究者們需要用一個包含文本和圖像的數據集從頭開始訓練一個新模型，這就是被稱作“Vokenization”的視覺語言數據集模型。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"Vokenization：如何成爲既好用又夠用的數據集","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我們首先如何來理解這兩種模型的差異呢？如果你問一下GPT-3這樣一個問題，“綿羊是什麼顏色？”它的回答中出現“黑色”的可能和“白色”一樣多，因爲它能在大量文本中看到“Black Sheep”（害羣之馬）這個詞。而如果你問一個圖像識別模型，它就不會從抽象的文本中學習，而是更直接從現實的圖像中學習，指出“這是一隻白色綿羊”，而“這是一隻黑色綿羊”。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我們既需要一個知識特別豐富的機器人，也需要一個能夠看懂現實狀況的機器人，只有把二者結合起來，纔是人工智能更接近和人類交流合作的樣子。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"但這個過程並不那麼容易實現。實際上，我們常用的圖像描述是不適用的。比如下面這張圖，通常的描述，只能識別出物體“貓”，或者和貓常常一起出現的局部事物“水杯、毛線球、盒子和貓爪”，並沒有描述出這隻貓的狀態和相互關係。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/32/32ca088a5444388fa87f75a707d71c69.jpeg","alt":null,"title":null,"style":null,"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"相比單純的對象標註，Vokenization視覺語言數據集就需要對圖像進行一組帶有描述性標題的編輯。例如，下圖的標題會是“一隻坐在正在打包的行李箱中的橙色的貓”，這和典型的圖像數據集不同，它不僅是用一個名詞（例如：貓）來標記主要對象，而是給AI模型標註出了如何使用動詞和介詞的相互關聯和作用。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/47/47ccff43781c17bdd991f116155d8d39.jpeg","alt":null,"title":null,"style":null,"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"但是這類視覺語言數據集的缺陷在於其數量實在太少，數據的生成和管理過程太久，相比較維基百科這種純文本包含近30億個單詞，這僅僅只佔GPT-3數據集的0.6％的這樣的規模相比，像微軟的MS COCO（上下文通用對象）這樣的可視化語言數據集才包含700萬個數據，對於訓練一個成熟的AI模型來說顯然是不夠的。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"“Vokenization”的出現就是要解決這個問題。像GPT-3是通過無監督學習來訓練的，這不需要手動標記數據，才使它極易去擴展規模。Vokenization也採用了無監督的學習方法，將MS COCO中的小數據量增加到英文維基百科的級別。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"解決了數據源的數量差異問題，Vokenination還要面臨第二個挑戰，就是解決視覺監督和自然語言文本之間的聯接問題。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"Voken代替Token：讓文本“看懂”世界","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"一般來看，自然語言中的詞彙中很大一部分是沒有視覺特徵的，這爲視覺監督提出了主要的挑戰。我們知道，在AI訓練語言模型中的單詞被稱之爲Token（標記），而研究人員則把視覺語言模型中與每個Token相關的圖像稱之爲Voken。而Vokenizer就代表爲一個Token尋找一個Voken的算法，Vokenization就代表整個算法模型實現的過程。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/6a/6a2b6c066bae9dc5fac690d226d628fe.jpeg","alt":null,"title":null,"style":null,"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Vokenization的過程，就不是從圖像數據集開始爲圖像標註標題，而是從一個語言數據集開始，採用無監督學習的方式，將每個單詞與圖像進行匹配，實現一個高擴展性，這就是解決第一個挑戰的具體思路。與此同時，研究者還要解決第二個挑戰的單詞和圖像的關聯性問題。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"GPT-3使用的是“單詞嵌入”的方式，基於上下文來創建每個單詞的數學表示，然後依賴這些嵌入把單詞變成句子，把句子組合成段落。Vokenization採取了一種並行的嵌入技術用於掃描圖像的視覺模式。研究者舉的一個案例是，將貓出現在牀上的頻率和出現在樹上的頻率繪製成一個表格，並用這些信息創建一隻“貓”的Voken。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"研究者就在MS COCO數據集上同時採用了兩種嵌入技術，把圖像轉換成視覺嵌入，把字幕轉換成文字嵌入。這樣做的優勢之處在於，這兩種嵌入可以在一個三維空間中繪製出來，並看到文字嵌入和視覺嵌入在圖形中的相互關聯，一隻“貓”的視覺嵌入應該會和文本中的“貓”的嵌入相重疊。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這能夠解決什麼問題呢？這給文本Token提供了一種圖像化的Voken匹配，使得它能夠有更加情景化的表示，對於一個抽象的詞來說，也可以根據不同的上下文情境，具有了完全不同的意思。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"比如，“Contact”這個詞，在下圖左側的Voken的匹配下，它就代表“聯繫信息”的意思，在下圖右側的Voken的匹配下，就代表了“撫摸一隻貓”的意思。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/e5/e50ca455d9876c1d2193a2fb810a76fe.jpeg","alt":null,"title":null,"style":null,"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"說到這裏，我們大概就能理解Voken的作用。當GPT-3模型對於一些文本概念無法準確理解其語境和相應語義的時候，它就容易開始自我發揮，胡言亂語，而一旦通過給這個Token找到圖像化的Voken實例，就可以真正理解這個詞的實際涵義。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"現在，研究人員通過在MS COCO中創建的視覺和單詞嵌入方法來訓練Vokenizer算法，在英語維基百科中已經爲40%的Token找到了Voken，儘管不到一半，但至少是30億單詞的數據集中的40%。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"基於這一數據集，研究人員重新訓練了谷歌開發的BERT模型，並且在6種不同的語言理解的測試中測試了這一新模型，結果顯示改進後的BERT在幾個測試方面都表現良好。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/dc/dc8299455549ac9c9f8586b5fcb6fb28.jpeg","alt":null,"title":null,"style":null,"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Vokenization現在還只是處在研究階段，我們也只能從其論文的結果中窺探這一模型的效果，至於這項新的視覺語言化技術的應用和展示，還有待後面我們進一步追蹤觀察。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"不敢怎樣，在無監督學習幫助下的視覺語言模型，成爲NLP領域剛剛閃現的一朵火花，爲自然語言處理打開了新的思路，使得純粹的文本訓練開始和圖像識別聯繫起來。這就像讓一個博聞強記的機器人從“自顧自說話”，變得可以聽見和看見外界的真實狀況，能夠成爲那個“睜開眼睛看世界”的人工智能。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"最後，讓我們重溫一個經典的場景，在海倫凱勒的自傳中，她描述了自己如何學會“Water”這個單詞的含義。又盲又聾的海倫總是搞混“杯子”和“水”的指代，直到她的老師沙利文女士帶着她來到噴池邊，一邊感受着清涼的泉水，一邊感受着沙利文在她手心寫下的“Water”，她這才終於明白了“水”的真實指代和含義。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/dc/dc300979282e5102876245e6d411ccc8.jpeg","alt":null,"title":null,"style":null,"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"用她的話說“不知怎麼回事，語言的祕密突然被揭開了，我終於知道水就是流過我手心的一種物質。這個叫“水”的字喚醒了我的靈魂……”","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"幸好，人類在失去光明和聽覺之後，僅能通過觸覺還能理解語言的奧祕，那麼對於人工智能來說，擁有了強大的圖像識別能力，又有近乎無限的文本知識，那麼，未來AI將能否通向一條具有像人類在日常經驗中學習的常識之路嗎？","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

AI從入門到入門之手寫數字識別模型java方式Dense全連接神經網絡實現

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

Pinecone: 大模型時代的智能索引與搜索解決方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

軟件測試從自動化到智能化，大模型開始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

裁員了！別錯過2024年大數據工程師必備的10項技能

在當今快速發展的世界中，數據被視爲新的石油。隨着對數據驅動洞察的日益依賴，大數據工程師的角色比以往任何時候都更爲關鍵。這些專業人員在管理和優化組織內的數據操作中扮演着至關重要的角色。在本文中，我們將探索2024年大數據工程師必須具備的十

2024-04-16 11:00:53

DevOps已死？2024年的DevOps將如何發展

隨着我們進入2024年，DevOps也隨之發生變化。新興的技術、變化的需求和發展的方法正在重新定義有效實施DevOps實踐。 IDC預測顯示，未來五年，支持DevOps實踐的產品市場繼續保持健康且快速增長，2022年-2027年的複合年增長

2024-04-08 12:51:44

從模型到部署，教你如何用Python構建機器學習API服務

本文分享自華爲雲社區《Python構建機器學習API服務從模型到部署的完整指南》，作者：檸檬味擁抱。在當今數據驅動的世界中，機器學習模型在解決各種問題中扮演着重要角色。然而，將這些模型應用到實際問題中並與其他系統集成，往往需要構建API

2024-04-08 10:33:17

測試左移已經開始影響DevOps的發展？

在軟件開發的早期，該過程通常是開發人員編寫代碼，再將其交給質量保證（QA）進行測試。這種瀑布開發方法可能會導致質量問題和延遲，因爲問題是在週期後期發現的。一、瞭解DevOps和測試左移 DevOps是Development和Operati

2024-04-07 12:48:37

黑盒Prompt優化：提升大模型反饋效果的新思路

隨着人工智能技術的快速發展，大模型在各種應用場景中發揮着越來越重要的作用。然而，如何提升大模型的反饋效果，使其更加準確、高效地爲用戶提供服務，一直是研究者和開發者關注的焦點。本文提出了一種新的思路——黑盒Prompt優化，旨在通過改進輸入提

2024-03-29 00:01:17

分佈式數據庫技術的演進和發展方向

這些年大家都在談分佈式數據庫，各大企業也紛紛開始做數據庫的分佈式改造。那麼，所謂的分佈式數據庫到底是什麼？採用什麼架構？優勢在哪？爲什麼越來越多企業選擇它？分佈式數據庫技術會向什麼方向發展？帶着這些疑問，一探究竟吧！參與文末的話題互動

2024-03-26 11:34:43

利用RAG技術打破大模型幻覺

隨着人工智能技術的不斷進步，大模型在各個領域中發揮着越來越重要的作用。然而，大模型幻覺問題一直是制約其進一步發展的瓶頸。爲了解決這一問題，研究者們不斷探索新的技術和方法。近年來，一種名爲RAG（檢索增強生成）的技術備受關注，它通過結合知識圖

2024-03-21 00:28:34

與 NVIDIA 再次合作、深度參與 GTC，Zilliz 與全球頂尖開發者共迎 AI 變革時刻！

Zilliz 與全球的頂尖開發者齊聚 GTC 2024。近日，備受關注的 NVIDIA GTC 2024 已拉開序幕，來自世界各地的頂尖 AI 開發者齊聚美國加州聖何塞會議中心，共同探索行業未來。作爲去年被 NVIDIA CEO 黃仁

2024-03-19 21:26:53

多模態+大模型會帶來哪些“化學反應”？

導語：沒人懷疑，2024 年，AI 依然將是科技界的主角。上個月，OpenAI 推出了可以生成 60 秒高清視頻的視頻生成模型 Sora，掀起了對多模態模型的進一輪討論。多模態大模型技術的最新進展如何？這一波新技術，對於行業和消費者的體驗會

2024-03-15 13:45:01

婦女節：打開 AI 視界，成就“她力量”

根據國內招聘平臺獵聘發佈的《2024 女性人才數據洞察報告》，從 2023 年 3 月到 2024 年 2 月，女性在 AIGC 領域的求職人次同比增長了 190.49%。隨着人工智能時代的降臨，女性正以前所未有的姿態，在技術的助力下，蛻變

2024-03-09 01:06:57

AI安全白皮書 | “深度僞造”產業鏈調查以及四類防禦措施

以下內容，摘編自頂象防禦雲業務安全情報中心正在製作的《“深度僞造”視頻識別與防禦白皮書》，對“深度僞造”感興趣的網友，可前往頂象留言，在該白皮書完成後，會爲您免費寄送一份電子版。 “深度僞造”就是創建高度逼真的虛假視頻或虛假錄音，然

2024-03-08 00:45:22

24小時熱門文章

最新文章

最新評論文章