AI一週熱聞:美國機場採用AI面部識別引發爭議;特斯拉發佈Q1季度財報,淨虧7億美元;

AI前線導讀:

-亞馬遜開發產品數據集ProductNet,協助高效標記數據
-美國機場採用AI面部識別引發爭議
-愛荷華州立大學研究人員發論文,探討如何在特定環境中部署AI
-研究人員利用GPT2模型來創建在線AI Dungeon遊戲
-Facebook發佈vid2game,可以從日常視頻中隨意創建遊戲角色
-俄羅斯一反常態呼籲就軍事AI領域達成國際協議
-Facebook創建TextVQA數據集,訓練AI模型閱讀圖片中的文字
-特斯拉發佈Q1季度財報,淨虧7億美元。汽車業務表現低迷,營收環比下降達41%

更多幹貨內容請關注微信公衆號“AI 前線”(ID:ai-front)

亞馬遜開發產品數據集ProductNet,協助高效標記數據

…我們聽聞你非常喜歡AI,於是我們把AI置入你的AI數據標籤系統中…

近日,亞馬遜披露了一個受到ImageNet啓發的產品數據集ProduceNet。ProductNet旨在幫助研究人員訓練出那種像等效培訓系統(equivalently-trained systems )對圖像類別具有的微妙且全面理解的模型。簡言之,亞馬遜的目標就是更好地學習如何對產品進行分類,研究人員在測試中表示,該系統可以顯著提高人類數據貼標機的效率。

該數據集ProductNet由3900類產品組成,每種類別大約有40-60個產品。“我們的目標是實現產品的多樣性和代表性。只有具有代表性,標籤數據才能夠被用作參考產品,進而爲產品搜索、定價和其他商業應用提供動力,”亞馬遜方面表示, “只有實現多樣化,模型才能夠擁有對未標記數據的強大泛化能力,產品嵌入才能夠代表更豐富的信息”。

那麼,ProductNet最終用途是什麼呢?

ProductNet的主要目的即是幫助亞馬遜開發更優化的系統,以幫助其人類承包商更加高效地標記數據,並創建一個可以直接進行自我標記的系統。亞馬遜也表示,應用這一系統,則意味着將爲亞馬遜帶來超過20倍的收益。

閱讀更多:ProductNet:用於產品代表性學習的高質量數據集
ProductNet: a Collection of High-Quality Datasets for Product Representation Learning (Arxiv)

美國機場採用AI面部識別引發爭議

當航空公司不再依靠護照和登機牌,而是開始使用面部識別來幫助乘客辦理登機時,這意味着什麼呢?

事實上,有相當一部分人在美國機場已經先行體驗過了,他們在Twitter上分享到:“我剛剛登上了一架國際航班@JetBlue(航空公司)。不同以往的是,登記時,我不需要掃描我的登機牌,甚至沒有出示護照,而是在進入飛機之前看向一個相機就可以了。

難道面部識別真的已經取代了登機牌嗎?(採用我的個人信息)得到我的允許了嗎?”

因爲涉及到私人信息,這位乘客在Twitter上質問航空公司:“據推測,這些面部識別掃描儀將我的圖像與某些東西進行匹配,以便驗證我的身份。 @JetBlue你們又是如何知道我的樣子的呢?”

JetBlue航空公司如實答道:“這些信息都是由美國國土安全部根據目前掌握情況提供的。”

“所以,說的明白點,政府將我的生物識別數據提供給一傢俬營公司,對嗎? 這經過我的我允許了嗎? @JetBlue你們已經持有我的數據多久了?

即使我選擇退出掃描儀…你們也已經掌握了我的信息,對嗎?”

……雙方針對面部識別隱藏的隱私權、肖像權等人權問題開始了一輪輪的質詢和應答。點擊下面鏈接即可閱讀帖子原文,感受雙方的脣槍舌劍。由此可見,也許航空公司要實現在機場全面推行AI面部識別技術的願景還有不少難題需要應對。

閱讀更多:當有人發現登機口已部署面部識別系統時會發生什麼。
what happens when someone finds facial recognition systems deployed at the boarding gate. (Twitter).

愛荷華州立大學研究人員發論文,探討如何在特定環境中部署AI

…除非你能夠部署AI,否則AI是無用的…

腦袋裏浮現出一個想法和最終實現這一想法之間有着天壤之別;愛荷華州立大學的研究通過討論從選擇一個問題(例如:訓練圖像識別系統以識別建築工地的圖像)到解決該問題所需的各個步驟來強調這一點。

“基於廣泛的文獻綜述,我們發現大多數研究都側重於開發改進的圖像分析技術,但很少考慮最終部署的經濟性,也很少在準確性和部署成本之間進行權衡,”作者寫道。 “本文旨在爲研究人員和工程師提供一個實用且全面的基於深度學習的解決方案,實現從開發的最初階段到最後階段的施工設備監測工作,即解決方案的部署”。

部署——不僅僅是一個獨立的步驟:本文重點介紹了人們在嘗試部署系統時需要做出的各種權衡,包括從缺乏針對特定環境的良好開放數據集(例如,用戶嘗試訓練模型運用於建築施工現場的ImageNet中相對較小的’AIM’子集),到使用MobileNet時,需要尋找高效模型的來源,再到爲特定硬件平臺定製這些模型,諸如Raspberry Pis,Intel Jetsons,Intel Neural Compute Sticks等等。

爲什麼這很重要:隨着AI進入部署階段,諸如此類的研究讓我們感受到大多數研究論文與實際可部署系統之間存在的鴻溝。此外,它還提供了一些支持“MobileNet”的證據。總之,我們會看到越來越多的論文涉及部署AI系統方面的內容,而不僅僅是創造AI。
 
閱讀更多:基於深度學習的建築設備檢測解決方案:從開發到部署
 A deep learning based solution for construction equipment detection: from development to deployment (Arxiv)

研究人員利用GPT2模型來創建在線AI Dungeon遊戲

…一個大型語言模型+一些精心設計的句子=有趣…

研究人員開始將靈活的組件(例如Transformers)與大型數據集相結合,用來培養大型高效的通用模型(參見:ULMFiT,GPT2,BERT等)。語言模型與圖像分類器非常相似,擁有一系列的用途,因此看到有人利用GPT2模型來創建在線AI Dungeon遊戲是非常有趣的,你可以通過閱讀文本塊及選中具體選項來進行場景操縱,而這些均是由模型生成。

Facebook發佈vid2game,可從日常視頻中隨意創建遊戲角色

… vid2game從視頻中提取可播放的角色…

近日,Facebook AI研究團隊發佈了一人工智能系統vid2game,可以讓你在互聯網上的公共視頻中選擇一個人,並培養能力控制他們,彷彿他們就是電子遊戲當中的角色。這種方法也讓他們能夠改變活動背景,比如,讓網球運動員可以走出球場,走上土路等等。

該技術依賴於兩個組件:Pose2Pose和Pose2Frame;Pose2Pose允許你一些連續鏡頭中選出一個人,通過構建他們身體的3D模型來提取其姿勢信息,並且可以用來幫助你移動這些選中的人物。Pose2Frame則負責將此選中的人物身體與背景相匹配,你也可以進一步用此技術去施加控制以及更改人物周圍的情景。

爲什麼這很重要:諸如這樣的系統主要揭示了我們如何使用人工智能來人爲地操作我們周圍的世界。Facebook認爲,這種方法“爲逼真、個性化的全新遊戲做了良好鋪墊,讓人們可以從日常視頻中隨意創建遊戲角色”。
  
閱讀更多:Vid2Game:從真實世界視頻中提取可控的遊戲角色
Vid2Game: Controllable Characters Extracted from Real-World Videos (Arxiv).
點擊觀看背後的技術工作the technology work here (YouTube).

俄羅斯一反常態呼籲就軍事AI領域達成國際協議

俄羅斯安全部門負責人已公開發表觀點,強調有必有對應用人工智能和新興技術的軍事領域進行國際監管,他認爲這與大規模殺傷性武器一樣危險。
他表示,有必要“調動全球社會的力量,主要是聯合國”,以制定國際監管框架。這一表態着實讓世人驚訝,因爲俄羅斯一直以來都是抵制針對致命性自主武器(指具有人工智能而無需人類干預就能襲擊目標的武器)簽署國際協議的主要國家之一。


閱讀更多:俄羅斯安全部長呼籲加強監管軍事領域(TASS)新技術的使用
Russia’s security chief calls for regulating use of new technologies in military sphere (TASS)

Facebook創建TextVQA數據集,訓練AI模型閱讀圖片中的文字

… Facebook創建數據集並開發相關技術,幫助其訓練AI模型用以閱讀圖片中的文字…

Facebook AI 研究團隊與佐治亞理工學院的研究人員表示,希望創建一種可以查看我們周圍世界的人工智能系統並回答有關問題。這樣的系統可能對有視力障礙的人有益處,他們可以通過AI系統詢問周圍的情況,實現與周遭世界的互動,例如:現在我面前的是什麼?餐廳菜單上有哪些食物?哪個是餐廳菜單上最便宜的商品?等等問題。

如果這聽起來如此簡單,那麼難點又在哪裏呢?思考一下,當你需要解析圖像中的某些文本以回答有關問題時,你會要求計算機做些什麼呢?要求包括:

  • 知道問題何時關涉文本
  • 找出包含文本的圖像部分
  • 將這些像素符號轉換爲單詞
  • 對文本和視覺空間進行推論
  • 確定問題的答案是否涉及到從圖像中複製一些文本並將其提供給用戶,或者答案是否涉及理解圖片中的文本並利用它來進一步推理內容。

TextVQA數據集:爲幫助研究人員解決這個問題,作者發佈了TextVQA,這是一個包含來自OpenImages中28,408個圖像的數據集,以及與這些圖像相關的45,336個問題,以及453,360個真實答案。

學習閱讀圖像:研究人員開發了一個名爲LoRRA的模型,即Look,Read,Reason&Answer的簡稱。LoRRA將一些現有的視覺問答(VQA)系統與一個專用的光學字符識別(OCR)模塊結合在一起。此外,它還有一個答案模塊,在Pointer網絡上進行了鬆散建模,它能夠確定何時合併OCR模塊已經解析過但VQA模塊不必理解的單詞。

爲什麼這很重要:構建可以攝取足夠的有關周圍世界信息的人工智能系統,以便爲人類賦能,這似乎是該技術最直接且最具影響力的用途之一。不言而喻,一種新型數據集的發佈將會鼓勵人們在這項重要使命上取得更多進展。

閱讀更多:向可閱讀的VQA模型邁進
Towards VQA Models that can Read (Arxiv)
獲取數據集:TextVQA (Official TextVQA website)

特斯拉Q1季度淨虧7億美元,汽車業務表現低迷,營收環比下降達41%

本月24日,特斯拉對外公佈2019年第一季度財報。財報披露,2019年Q1季度特斯拉營收達45.4億美元,較去年同期增長33%,環比下降37%。此外,該季度淨虧損達6.68億美元,較去年同期略有好轉。

儘管馬斯克在今年2月就早早給大衆打了預防針,表示“別樂觀,一季度可能虧損”,但財報公佈後,特斯拉最大跌幅近2%,隨後企穩回升。由此可見,這樣一份答卷還是讓不少人失落。


據悉,特斯拉虧損的一大主因是汽車業務方面表現不佳。這一點財報中也有體現:特斯拉在第一季度中主營的汽車業務營收爲37.238億美元,同比增長36%,但環比下降高達41%。而這一數字的背後不僅僅是汽車銷量未達預期,另外,特斯拉也開年後迎來政策寒冬——成爲首家無法享受全額$7500聯邦稅收抵免的汽車製造商,儘管特斯拉方面繼續通過降價的方式刺激銷量,但效果如何依然有待觀察。

閱讀更多:特斯拉2019 第一季度財報
https://ir.tesla.com/static-files/b2218d34-fbee-4f1f-ac95-050eb29dd42f

作者 Jack Clark 有話對 AI 前線讀者說:我們對中國的無人機研究非常感興趣,如果你想要在我們的週報裏看到更多有趣的內容,請發送郵件至:[email protected]

英文原文鏈接:
https://jack-clark.net/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章