百度/谷歌/微軟/Facebook 人工智能發展方向

人工智能的動作來看這四家:

百度、谷歌、微軟、Facebook


人工智能已經成了兵家必爭之地,但說句實在話,也都是準備的姿勢。不過,瞭望未來的AI大戰,積極的人才、設施、技術儲備都是剛需。近日,美國《財富》雜誌(Fortune)發表題爲“Why deep learning is suddenly changing your life“的文章,文中深入介紹了包括百度、谷歌、微軟、Facebook在內的全球四大AI巨頭在人工智能的佈局以及深度學習對人們日常生活帶來的改變。

下面來看一下這四家公司備戰人工智能都做了什麼⬇️

人工智能的動作來看這四家:百度、谷歌、微軟、Facebook

----------------------

一、百度在深度學習與人工智能領域的進展與成果

(一)百度人工智能

  • 百度硅谷人工智能實驗室,兼具開發與研究能力

人工智能實驗室,成立於2014年5月,側重於研究人工智能和深度學習的前沿技術,這使得百度在硅谷現有開發能力的基礎上,進一步增強其研究能力。實驗室搭建了百度人工智能的產品“百度大腦”,融合了深度學習算法、數據建模、大規模GPU並行化平臺等技術,實現了實時學習和成長,它擁有200億個參數,構成了一套巨大的深度神經網絡。目前實驗室主要研發方向爲:語音識別、圖像識別、imageQ&A、自動駕駛技術等。

  • 百度人工智能人才培養:“少帥計劃”——人工智能實驗室青年科學家甄選及培養計劃

“少帥計劃”招聘對象是人工智能領域30歲以下的年輕研究人員,從知識、行動、表達、創新和夢想等五方面進行考察,,不看資歷和學歷,只看能力和潛力,對於入選“少帥計劃”的頂尖人才,百度設計了一整套培養計劃:一年後,獲得不少於半年赴百度美國硅谷研發中心工作機會,或者去美國麻省理工學院(MIT)、斯坦福大學(Stanford)等頂尖院校擔任訪問學者;三年後,經考覈有機會獲得“百度天使投資”,帶領20-30人團隊,獨立領導一個創新項目。

  • 百度人工智能介紹

  • 硬件基礎:

百度創新性的利用大量GPU組成HPC(高性能計算機羣),用其訓練深度學習。研究人員通過提高GPU的使用效率,從而提升訓練神經網絡的速度及規模。百度在HPC的研究已處於世界領先地位。爲提供在線神經網絡的速度與規模,百度開發了FPGA加速器、GPU加速器加速技術提供在線服務,速度提升五倍左右。

  • 算法:深度學習:

百度深度學習主要依靠硬件及算法模仿類似於大腦神經突觸聯接的結構進行信息處理的模型,它讓機器執行人類的活動,如看、聽和思考,爲模式識別提供了可能性,促進了人工智能技術的進步。正是受益於Deep Learning領域的技術突破,百度在圖像、語音方面取得了驕人的成績。

爲了順應移動時代的潮流,百度正將深度學習模型小型化的同時,加快運行速度,致力於開放適用於手機、平板等移動設備的深度學習引擎。

百度在構建深度語音端對端系統的過程中發明了Warp-CTC方法,進而使用CTC提高模型的可伸縮性,該算法比普通CTC訓練快百倍。百度還將這一算法開源,此舉將加快推進深度學習研究者的研發成果,大幅提高人工智能開發速度,讓端到端的深度學習變得簡單、快速。

(二)百度人工智能技術進展與應用

概述:

百度在人工智能方面佈局已久,關鍵技術的進展十分迅猛,目前在語音識別、圖像識別、自然語言處理、無人駕駛、機器學習、深度學習等人工智能相關領域共公開了1500餘件發明專利,遙遙領先於微軟、IBM等公司。其中,深度語音識別系統於2月入選《麻省理工科技評論》2016十大突破技術,百度也被選入全球50大創新公司。

1. 百度大腦

組成百度大腦的三大部分:超大規模神經網絡、計算、數據。

  • 百度超大規模神經網絡是模擬人腦神經元組成的網絡,但卻比人腦的神經元數量多一個量級,支持萬億級參數、千億樣本、千億特徵訓練。

  • “百度大腦”的計算基於數十萬臺服務器,以及國內最大的GPU集羣。

  • 百度擁有海量數據,包括全網萬億網頁、數十億級搜索數據、百萬級圖像視頻數據、百萬級定位數據。

“百度大腦”主要包含語音、圖像、自然語言處理、用戶畫像四大能力。

目前,百度的語音及圖像能力相對成熟;自然語言處理仍處於早期階段,因爲除了認知能力外還要求具備推理、規劃等能力;用戶畫像可根據用戶的數據進行處理,描繪出每個人專屬的特徵。

  • 語音能力

  • 語音識別技術:百度深度語音識別技術Deep Speech2入選《麻省理工科技評論》“2016年十大突破技術”。目前,百度語音識別準確率爲97%

  • 語音合成技術:百度語音合成技術已應用到百度各個產品中,每天響應的語音合成請求量達到2.5億次,以手機百度小說頻道爲例,聽小說的用戶從過去聽40分鐘,增長到現在的近兩個半小時,並利用該技術復原張國榮的聲音。“百度大腦”的語音合成能力只需要按照要求說50句話,便可以讓每個人擁有自己的聲音模型。

  • 圖像能力

  • 人臉識別:百度人臉識別準確率達到99.7%,該技術可識別人臉上的72個特徵點,並將這些特徵點連結起來形成面部表情網,可據此識別每個人的各種表情。

  • OCR識別:採集全景圖片,利用OCR技術,自動進行目標識別,實現百度地圖中的POI、導航等信息的快速更新。

  • 無人車視覺:無人車中也運用到了圖像識別技術,在專爲自動駕駛設定的KITTI測試中,百度在車輛檢測方面排名第一

  • AR:AR依賴於圖像識別技術,通過識別、理解現實場景,將虛擬與現實世界融合,用戶可進行交互。我可以把現實世界中我的產品和虛擬世界中我希望用戶感知的東西結合在一起,這是一種新型的廣告形式,和用戶進行互動,這裏面不僅有圖像識別的技術,也很大程度上取決於廣告主的創意,如果創意和這個技術結合,對消費者的吸引力也非常大,帶來實惠。百度AR團隊研究的核心技術包括:圖像識別與追蹤、視覺同時定位與建圖(SLAM)技術、AR渲染引擎、以及傳感器數據融合技術。其中,圖像識別與追蹤技術在iOS和Android平臺上的運行時間和識別精度都處於世界領先地位。應用方面,在最常使用的app中,手機百度是第一個集成AR功能的APP, 這意味着數億用戶已經可以體驗AR功能。

  • 自然語言處理能力

  • 度祕:目前,用戶和度祕的交互大約有56%是通過語音和圖像來完成的,就像和人對話一樣,這種方式非常自然,更順應人性。度祕可利用自然語言處理能力解說奧運籃球比賽,通過提前學習幾百場NBA和以往奧運會籃球比賽的解說和評論,不斷理解比賽,將枯燥的數據轉化爲解說員風格的語言。度祕除了它能夠識別語音和圖像之外,其實它更關鍵、更核心的技術,是能夠用人的語言來與人進行交流,並且能夠理解人的很多意思和意圖,儘管不是每一次都能理解。

  • 百度翻譯:百度翻譯支持27種語言互譯,通過自然語言處理能力,理解用戶想要說什麼,實現無障礙溝通。

  • 用戶畫像能力

  • 百度系產品擁有10億日活量,基於大數據、機器學習等技術,將這些數據劃分爲千萬級的細分標籤。目前,百度的用戶畫像分爲兩個維度,垂直畫像支持金融、保險、生活服務、零售、旅遊、房產、諮詢等深度行業應用,通用畫像則基於人口屬性、位置屬性、長期興趣、短期意圖、APP偏好等描繪用戶畫像,支持全行業個性化應用。

  • 手機百度:利用用戶畫像能力,手機百度資訊推薦閱讀量在兩個月內增長10倍,手機百度在新聞垂類裏,擁有61.5萬個細分標籤。

  • 行業合作:2016年6月份上映的電影《魔獸》,它的出品人是傳奇影業,他們就是利用了百度大腦的用戶畫像功能來提升了200%的票房。做法是將人羣分成三類,一類人是不管怎麼樣都要看的,另外一類是不管怎麼樣都不會看的,這兩種人他們都不太關心。它關心的是它可以影響的人羣,再通過用戶畫像把這些人從搖擺的轉換成真正去電影院看的。

2. 百度無人駕駛汽車

  • 無人車發展進程

百度無人駕駛車項目於2013年起步,由百度研究院主導研發,其技術核心是“百度汽車大腦”。相比於國際同類項目,百度自動駕駛項目憑藉在LBS、大數據和人工智能領域多年的技術積累,已形成了一套完整的自動駕駛技術方案,並在交通場景物體識別、高精度地圖與定位、智能決策等關鍵技術上達到國際領先水平。

2015年12月初,百度無人車完成了開放高速公路環境下的自動駕駛路測,開創了中國無人駕駛車研發領域三個“最”:路況最複雜,自動駕駛動作最全面,環境理解精度最高。當月,百度又宣佈正式成立自動駕駛事業部,事業部聚焦於自動駕駛汽車的技術研發、生態建設與產業落地,計劃三年實現自動駕駛汽車的商用化,五年實現量產。

截止目前,百度自動駕駛技術專利的申請數量439項,包括無人車的智能感知與控制、智能檢測與定位、高精地圖等國際領先技術。

  • 百度無人駕駛車大事記:

2015年12月10日,路測成功。

2015年12月14日,百度自動駕駛事業部成立。

2015年12月16日,百度無人駕駛車亮相第二屆世界互聯網大會——互聯網之光博覽會。

2016年1月18日,“智能汽車與智慧交通產業創新示範區”在京成立,百度受邀成爲創新中心發起單位之一。百度將深度參與智能駕駛應用示範板塊建設,其自動駕駛項目有望在亦莊開發區落地。

2016年1月22日,百度美研中心成立負責搭建無人車硬件計算平臺部門。

2016年5月16日,百度蕪湖合作 開啓全球首個全無人車運營區

2016年5月27日,百度與上海國際汽車城正式簽約,共建無人駕駛示範區(試點)

2016年8月,百度與福特聯合注資激光雷達公司Velodyne

2016年9月,百度無人駕駛汽車獲批美國加州路試

2016年10月,百度與北汽加深合作,北汽鄔學斌加盟百度

  • 無人車核心技術

  • 百度無人駕駛車項目的技術核心是“百度汽車大腦”,包括高精度地圖、定位、感知、智能決策與控制四大模塊。底層爲高精度地圖、中間層爲感知/定位,最高層爲智能決策與控制。目前汽車大腦已經可爲汽車提供高精度地圖、高精定位、智能感知、智能控制的自動駕駛整體解決方案。其中,百度自主採集和製作的高精度地圖記錄完整的三維道路信息,能在釐米級精度實現車輛定位,相比於GPS定位精度提升了兩個數量級。

  • 百度無人駕駛車依託國際領先的交通場景物體識別技術和環境感知技術,實現高精度車輛探測識別、跟蹤、距離和速度估計、路面分割、車道線檢測,爲自動駕駛的智能決策提供依據。

  • 百度無人駕駛使用了64線激光雷達、毫米波雷達、視頻等感應器。GPS定位系統等,隨時採集車輛周邊數據,精確識別路面交通線、紅綠燈、各種交通標識,可準確接收車輛的定位信息。在國際通用的KITTI測試車輛檢測項目中,百度的車輛識別準確率達到89.32%。

  • 王勁認爲, 5年後,百度無人駕駛車將積累大量高精準的激光數據,其處理能力、訓練模型、駕駛能力會遠超傳統車廠。在智能決策上,它能根據實時感知的環境信息、高精度地圖等,進行最優路徑規劃,預測周邊車輛和行人的行爲和意圖,做出適合路況的行車決策,從而能控制汽車正常行駛。

3. 百度雲

  • 百度雲特點與優勢

  • 百度雲是百度在15年技術積累、彙集上萬名國內外頂尖技術專家的基礎上,通過開放百度核心基礎架構技術,爲廣大公有云需求者提供的全系列可靠易用的高性能雲計算產品。百度雲擁有超過1.2萬臺的單集羣,超過阿里飛天計劃的5k集羣。百度雲還擁有CPU利用率高、彈性高、成本低等特點。

目前,百度雲已擁有包括雲服務器BCC、負載均衡BLB、對象存儲BOS、內容分發網絡CDN、關係型數據庫RDS等全系列共13款雲計算產品,用戶通過百度雲官網,可根據業務需要靈活選配產品服務和付費方式,在線完成購買。

  • 百度雲擁有三大立足點:領先的技術優勢,融合AI的差異化優勢,和從全行業解決方案(及市場策略)切入的生態優勢。百度在雲計算、大數據和人工智能領域的深厚積累,使得百度雲不同於傳統的雲計算,而是“雲計算+大數據+人工智能”的“三位一體”。

  • 李彥宏認爲“百度有人工智能技術的創新,有大規模處理數據的能力,有非常精準的用戶畫像能力,有非常好的定位能力,所有這些能力結合起來,可以在各個行業發揮出非常獨特作用。”

  • 百度雲三大智能平臺

智數大數據平臺——天算、智能多媒體雲平臺——天像,以及智能物聯網平臺——天工,其中包含衆多全新上線的行業解決方案和產品。三大智能平臺,連同已有的雲服務,共同構成了百度開放雲成熟、完整的產品矩陣。

(三)百度人工智能技術開放

1. 深度學習開源平臺PaddlePaddle:

百度全新的深度學習開源平臺PaddlePaddle在開源社區Github及百度大腦平臺開放,供廣大開發者下載使用。PaddlePaddle已實現CPU/GPU單機和分佈式模式,同時支持海量數據訓練、數百臺機器並行運算,輕鬆應對大規模的數據訓練。同時,PaddlePaddle更具易用,高效,靈活和可伸縮等特點,具備高質量GPU代碼。目前,PaddlePaddle已在百度30多項主要產品和服務之中發揮着巨大的作用。

2. 百度人工智能技術開放

百度已將語音、圖像、自然語言處理等多項人工智能技術通過APIStore、接口等方式免費對外開放,降低開發者研發成本及難度,賦能各行各業。目前,包括聯想智能電視、信利智能可穿戴設備、特斯拉電動汽車、去哪兒APP、陌陌APP等廠商,都使用了百度語音開放技術。

零售、交通、金融、家居、醫療、教育、汽車等行業可以使用百度人工智能的能力,通過行業自身積累的大數據,或同時融合百度大數據進行挖掘處理,改造和優化各個行業在管理、產品服務、設計等環節的能力。

二、Google在深度學習與人工智能領域的進展與成果

(一)Google人工智能技術的進展及應用

1. Google Brain

  • 2011年Google推出了聚焦深度學習的Google Brain項目,是“Google X實驗室”一個主要研究項目。是谷歌在人工智能領域開發出的一款模擬人腦的軟件,這個軟件具備自我學習功能。Google X部門的科學家們通過將1.6萬臺電腦的處理器相連接建造出了全球爲數不多的最大中樞網絡系統,它能自主學習,可以稱之謂“谷歌大腦”。

  • 通過應用谷歌大腦的神經網絡,谷歌的軟件已經能夠更準確的識別講話內容,而語音識別技術對於谷歌自己的智能手機操作系統Android來說已經變的非常重要,而同樣這一技術也可以用於谷歌爲蘋果iPhone開發的應用程序。通過神經網絡,能夠讓更多的用戶擁有完美的、沒有錯誤的使用體驗。隨着時間的推移,谷歌的其他產品也能隨之受益。例如谷歌的圖像搜索工具,可以做到更好的理解一幅圖片,而不需要依賴文字描述。

2. DeepMind

  • 2014年年初,谷歌以4億美元的架構收購了深度學習算法公司——DeepMind,公司創始人哈薩比斯是一位橫跨遊戲開發、神經科學和人工智能等多領域的天才人物。7月,谷歌以DeepMind爲主體與牛津大學的兩支人工智能研究隊伍建立了合作關係

  • DeepMind也很快發佈了研究成果,它在10月份公佈了一種新的模擬神經網絡,旨在模仿人類大腦的工作記憶原理,擁有更加強大的歸納整理和聯想演繹等邏輯處理能力,從而帶來更快的任務處理速度,還可以通過訓練去自行處理任務,這種全新的深度學習算法可用於計算機視覺和語音識別等領域。

  • 2015年,DeepMind團隊在《自然》雜誌上公佈研究成果:通過深度神經網絡與強化學習結合的Human-level control through deep reinforcement learning,展現出了在複雜任務中酷似人類的算法

  • 2016年3月,DeepMind團隊訓練的深度強化學習項目AlphaGo擊敗了圍棋世界冠軍李世石,這是人工智能的一次里程碑事件。

  • 2016年10月,DeepMind在期刊《自然》中發表論文稱,已經開發了“可微分神經計算機”(DNC),通過結合神經網絡和常規計算機內存,能夠在沒有先驗知識的情況下解決一些小規模問題,例如規劃倫敦地鐵站之間的最佳路線,理解家譜等圖形結構。

3. 谷歌自動駕駛汽車

  • Google Driverless Car是谷歌公司的 Google X 實驗室研發中的全自動駕駛汽車,谷歌自動駕駛汽車項目始於2009年,遠遠領先於傳統汽車廠商和其他大多數公司。截止2016年10月,谷歌自動駕駛汽車路測里程已達到200萬英里(約合290萬公里)。此前,谷歌的自動駕駛汽車已經完成了總計70萬英里的高速公路無人駕駛巡航里程。

  • 谷歌無人駕駛汽車通過攝像機、雷達傳感器和激光測距儀來“看到”其他車輛,並使用詳細的地圖來進行導航。谷歌的原型車安裝了17個感應裝置,蒐集來的信息能快速建立起一個半徑200公尺的3D信息圖,讓車輛對外部環境進行分析判斷,實現360度的全方位防護。

4. 谷歌智能家居生態系統建設

  • 智能家居生態系統:谷歌通過一系列併購、開放平臺的建立、軟件硬件一體化來打造智能家居生態系統

  • 谷歌於2014年1月份以32億美元收購了智能家居製作商Nest,該公司主要提供智能恆溫器和智能煙霧探測器,並已經擁有 100 多項專利,200 多項專利已在美國專利局備案,另有 200 多項專利準備備案。

  • 6月份,谷歌通過Nest花費5.55億美元收購了基於雲端的家庭監控公司Dropcam,

  • 10月份,又收購了智能家居中樞控制設備公司Revolv,該公司將參與Nest的開放計劃“Works with Nest”。

  • Google Home

2016年穀歌秋季發佈會發發布智能家居核心產品Google Home。Google home內置了谷歌助理,通過語音遙控,它可以播放音樂,獲取信息和知識、日程管理,通過設備互聯,還可以遙控其他的家庭智能硬件,比如恆溫器、電視機(Chromecast連接)等等。

5. 谷歌語音能力

  • 2014年,谷歌開始了開發一套能夠整合公司海量數據的語音系統,這個正處在測試階段將會使計算機從本質上“聽懂”和“思考”人們向谷歌設備輸入的語音。這個團隊將前饋神經網絡替換成了遞歸神經網絡,提高了系統對語音信息的存儲和處理能力,並能夠使用上下文、物理定位及其它方式對談話者的真正含義進行預測,就像人在談話時大腦所做的一樣。

  • Google在2014年將語音識別的精準度從2012年的84%提升到如今的98%,移動端Android系統的語音識別準確性提高了25%

  • 2016年9月,谷歌宣佈將收購智能語音識別工具開發商API.ai,預計會整合其自然語言理解技術。

6. 谷歌圖像識別能力

  • Google研究院也發表了一篇文章,表明未來Google的圖形識別引擎不僅僅能夠識別出照片的對象,還能夠對整個場景進行簡短而準確的描述。

  • 谷歌一直在積極吸引圖像識別和計算機視覺方面的專家參與到谷歌的項目研究中來,比如說向研究計算機視覺和模式識別的助理教授Devi Parikh授予了谷歌內部研究獎項Faculty Research Awards和 9萬美元的無限制基金,並允許她直接同谷歌的其他研究者和工程師進行合作。

  • 2015年8月,谷歌收購圖片分析公司Jetpac。

  • 谷歌在計算機視覺技術也取得了突飛猛進的發展。如果以計算機視覺技術研究者設置的技術標準來看,自2010年到2014年,圖像分類識別的精準度提高了4倍。

7. 谷歌知識圖譜

2010年穀歌收購了Metaweb公司,局面大大改觀。詹南德雷亞在Metaweb公司致力於“將相關事務自動連接”的技術,讓機器自己學習並發現不同事物、不同信息之間的關聯。這類似於我們所理解的語義網絡。2012年,谷歌正式發佈“知識圖譜”,該技術讓谷歌搜索變得更加智能。比如,讓用戶迅速找到最想要的信息,給用戶提供更全面的摘要,讓搜索更有深度和廣度。在“知識圖譜”裏,儲存着海量信息以幫助用戶儘可能快地通過搜索找到答案。

(二)Google人工智能技術開放

1. 開放平臺TensorFlow

  • 2015年11月,谷歌在其官方博客上宣佈開源自己的最新第二代機器學習系統TensorFlow。TensorFlow對於DistBelief的短板做了補足。TensorFlow靈活性佳、可移動、易於使用,而且是完全開源的。基於DistBelief的速度、可擴展性和爲產品做準備的特性,TensorFlow做得更爲出色。

  • TensorFlow此前一直爲像圖像識別和郵件自動回覆這樣的谷歌各大產品提供相應的支持,而開源則意味着從此以後,所有的個人、企業和組織都可以用站在谷歌的肩膀上,借用它的技術來開發自己的AI應用。

2. 開源Deep dream

2015年,Google開源了用來分類和整理圖像的AI程序Inceptionism,並命名爲DeepDream。DeepDream採用卷積神經網絡,將圖像劃分爲不同風格與內容組件。DeepDream的開源除了幫助我們深入瞭解深度學習的工作原理外,還能生成一些奇特、頗具藝術感的圖像。

3. 開放語音識別API

2016年5月,谷歌NEXT雲用戶大會上,公佈開放語音識別API。谷歌雲語音API(Google Cloud Speech API)將覆蓋超過80種語言,兼容任何實時串流或者批處理模式的應用,它將爲應用程序提供一整套API,給它們帶來“看、聽與翻譯”方面的功能。它基於目前驅動谷歌應用的語音搜索和谷歌鍵盤的語音輸入的神經網絡技術。它還有一些其它有趣的功能,如可在嘈雜的環境運行,支持實時運行。

4. 谷歌開源人工智能工具SyntaxNet

谷歌開源世界準確度最高的自然語言解析器SyntaxNet開源。據介紹,谷歌在該平臺上訓練的模型的語言理解準確率超過90%。谷歌此次所公開的包含了所有開發人員的數據訓練新的SyntaxNet模型所需要的代碼,以及Paesey McParseface——谷歌已經訓練好的,可用於分析英語文本的模型。

三、微軟在深度學習與人工智能領域的進展與成果

(一)微軟人工智能技術的進展及應用

1. 微軟人工智能與研究事業部

2016年9月,微軟今日宣佈,將把“技術與研發部門”和“人工智能( AI )研究部門”相合並,組建新的“微軟人工智能與研究事業部”(Microsoft AI and Research Group)。 該事業部將由微軟全球執行副總裁、技術與研發部門主管沈向洋領導。沈向洋是全球計算機視覺和圖形學研究領域的頂級專家,1996 年加盟微軟。該事業部下屬部門將包括人工智能產品工程、基礎和應用研究實驗室,以及新體驗與技術( NExT )。,新成立的人工智能與研究事業部將通過四種途徑來推廣人工智能技術,分別爲代理( Agents )、應用、服務和基礎設施。

2. 自然語言處理

  • 微軟自然語言計算組成立於 1998 年,專長於翻譯、輸入法、問答、社交文本挖掘、搜索引擎、口譯、手語翻譯等。

  • Skype Translater 實時語音翻譯技術

  • Skype Translator 的實時語音翻譯技術是一項讓兩個不同語言的人,可以實時通過自己的母語進行語音進行溝通的技術。微軟實時語音翻譯技術通過在語音識別階段就爲口語的識別做了特殊的輸入優化,識別之後的文本經過 TrueText 技術的處理,再進入文本翻譯階段,文本翻譯的輸出結果也要爲口語做優化,最終通過成熟的 TTS 技術讓機器“讀出來”翻譯結果。

  • 微軟最早在 2012 年天津的一次學術活動上展示了這項技術。2014年12月,這項技術在 Skype Translator 應用上實現商用,之後陸續運用到桌面版 Skype Translator 和 Microsoft Translator 手機App中。在今年年底前,將爲Office 365企業用戶提供 Skype Meeting Broadcast 服務。通過該服務,可以自動爲網絡會議添加字幕,並將會議實時地翻譯成不同語言展現出來。

  • 2016年上半年,這項技術迎來新的里程碑,微軟將 API 開放給所有人,方便開發者將其集成到自己的應用中。

  • 微軟小冰

  • 微軟小冰是微軟(亞洲)互聯網工程院在2014年5月29日發佈一款人工智能伴侶虛擬機器人。數據顯示:小冰自2014年6月發佈至今,已擁有4200萬用戶,並與用戶間進行了逾220億次對話,平均對話輪數達到了創紀錄的23輪,語音自然度達4.32(介乎於“自然”和“比較自然”兩個分值之間)。

  • “微軟小冰”集合了中國近7億網民多年來積累的、全部公開的文獻記錄,憑藉微軟在大數據、自然語義分析、機器學習和深度神經網絡方面的技術積累,精煉爲幾千萬條真實而有趣的語料庫(此後每天淨增0.7%),通過理解對話的語境與語義,實現了超越簡單人機問答的自然交互。

  • 微軟Cotrana

  • Cortana (中文名:微軟小娜)是微軟發佈的全球第一款個人智能助理。它“能夠了解用戶的喜好和習慣”,“幫助用戶進行日程安排、問題回答等”。Cortana 可以說是微軟在機器學習和人工智能領域方面的嘗試。微軟想實現的事情是,手機用戶與小娜的智能交互,不是簡單地基於存儲式的問答,而是對話。它會記錄用戶的行爲和使用習慣,利用雲計算、搜索引擎和“非結構化數據”分析,讀取和“學習”包括手機中的文本文件、電子郵件、圖片、視頻等數據,來理解用戶 的語義和語境,從而實現人機交互。這也是微軟的 研究,從個人計算機(personal computer)走向個人計算(personal computing)的開始。

  • Cortana 背後極大地依賴 Bing 信息平臺的服務和數據,以及微軟研究院的技術研究,上述的任務都由一系列不同技術組合完成。Cortana 的設計理念是基於“最頂尖的機器學習和數據挖掘算法”,自然語言處理、語義分析、語音技術、Bing Satori 知識庫和自學習系統等都是其中的核心技術。

3. 語音能力

  • 微軟的語音技術研究始於 1993 年,2007 年微軟花 10 億美元買下了語音識別技術公司Tellme ,深耕語音技術研究。

  • 2011年上半年,微軟把深度學習引入到自己的商用語音識別產品裏面,其中包括了Bing語音搜索以及X-Box語音命令。目前微軟 Bing 語音平臺整合於微軟各產品線:Windows 和 WP 操作系統、Kinect、車載系統等。

  • 微軟宣佈了一項關於機器理解人類語言的重要測試結果,即研究人員獲得了迄今最低語音識別會話誤碼率(WER)——6.3%。

4. 圖像能力

  • 在2015舉行的ImageNet計算機視覺識別挑戰賽上,微軟亞洲研究院的152層深層殘差網絡系統,獲得了圖像檢測、圖像分類和圖像定位三個項目的冠軍,其視覺計算組的系統錯誤率低至3.57%,去年這一數據爲6.6%。殘差學習重構了學習過程,重新定向深層神經網絡中的信息流,極大地改善了其它計算機視覺問題。

(二)微軟人工智能技術開放

1. 深度學習平臺CNTK開源

  • 2016年1月,微軟開源其深度學習語人工智能領域的研究成果 Computational Network Toolkit(CNTK),將之放上 GitHub 供所有開發者使用,而且據微軟研究員說法,CNTK 在語音和圖像辨識能力方面,比 Google 的 Tensor 等四個開發者常用的 Toolkit 有更快的運算速度。

  • 微軟 CNTK 加快深度學習運算的祕訣,則是靠 GPU,微軟發現,雖然 GPU 設計用於電腦圖像處理,但用在說話、聽、理解語音、辨識圖片與動作這類的演算法處理時,其效果也相當理想。且不管是隻有一臺電腦,或者是多臺以 GPU 爲主的運算服務器,都可以跑得動 CNTK,因此對於那些預算有限的研發人員、致力於深度學習的新創公司,或者是擁有大量數據並要即時處理的大公司,都能盡情使用 CNTK。

2. 開源人工智能(AI)平臺Project Malmo

  • 微軟日前宣佈將開源旗下人工智能(AI)平臺Project Malmo,通過Project Malmo,所有研究者都可以用廉價、有效地對人工智能算法和程序進行測試,而不必要開發機器人去操控。目前,研究者可以通過微軟《我的世界》遊戲去測試AI算法。

  • 人工智能當中,機器學習算法需要反覆嘗試和試錯來讓機器“強化學習”,微軟劍橋實驗室研究員Katja Hofmann表示,Project Malmo就是爲幫助研究者解決這個環節問題而推出的工具,以加強通用人工智能的開發,包括指導人工智能程序學習,展開對話,做出決策,以及完成複雜的任務。

四、Facebook在深度學習與人工智能領域的進展與成果

(一)Facebook人工智能技術進展及應用

1. Facebook兩大人工智能相關實驗室

  • Facebook AI研究實驗室(FAIR):

重點發展基礎研究的Facebook AI(FAIR)項目,由Yann LeCun負責,在加入 Facebook 之前,LeCun 被認爲是該領域最富成就的科學家之一,FAIR主要專注於基礎科學和長期研究。

  • 應用機器學習部門AML:

專注於人工智能產品應用的應用機器學習部門AML,這個部門由西班牙裔機器學習專家Joaquin Candela負責。Candela 是一個資深的機器學習專家,他的團隊目前的研究方向是將人工智能應用於已有的 Facebook 產品。AML 的目標是「推進技術轉移最大化的工藝水平」以及成爲「科學、研究以及技術轉移之間的紐帶」。AML 正試圖爲提供排名、廣告、搜索、語言翻譯、語音識別、自動產生視頻字幕以及自然語言理解等所有領域開發更好的算法以提升 Facebook 的底線。

2. Facebook自然語義處理能力:

  • 文本理解引擎Deep Text:

  • Facebook發佈了文本理解引擎“Deep Text”,該引擎可以以接近人類的精準度,每秒理解幾千個帖子的覆蓋20多種語言的的文本內容。DeepText將部署在Facebook的各項服務中,幫助其爲用戶提供更好的相關文章和服務推薦,此外DeepText還能夠幫助Facebook識別垃圾信息,篩選出惡意或威脅性的網友評論。

  • DeepText還能夠根據情景理解文本含義。DeepText還會將整合於移動聊天工具中,系統可以自動分析用戶的聊天信息,比如如果認爲兩位好友正在談論一個出行計劃,系統可以自動匹配出Uber、Lyft等移動專車的信息,或是給出天氣預報等內容。

  • 翻譯:Faebook利用神經網絡來翻譯每天超過40種語言的約20億帖子,並稱它的翻譯每天有8億用戶使用,其中約一半用戶不以英語爲母語

  • 人工智能助理Facebook M

2015年8月,Facebook公開了一個名爲“Moneypenny”(簡稱M)的人工智能助理項目,它可以幫助用戶完成一些信息諮詢類工作。比如能完成預定酒店、購物等工作,這些是微軟,蘋果和Google的語音助手現在無法完成的。交互方式是在對話框輸入所需服務的文字即可,Facebook M屬於混合型產品,採用人工+人工智能的模式爲用戶服務。據悉,Facebook M是殺手級功能,雖已足夠智能,但目前仍在測試期。

  • 聊天機器人平臺

在F8開發者大會上,Facebook把Messenger開發爲一個可以讓商家與用戶通過聊天機器人溝通的平臺,適時推出了Messenger聊天機器人平臺。Facebook計劃通過“聊天機器人”幫助用戶與企業之間進行自動化溝通及在線購買等活動,擴大Messenger應用在客戶服務和企業交易中的使用。現在入駐Messenger平臺的聊天機器人已達一萬多個。

3. Facebook圖像能力:

  • 收購人臉識別公司Face.com

2012年6月,Facebook收購人臉識別公司Face.com。Face.com是以色列面部識別公司,此前爲Facebook等公司提供人臉檢測及識別技術。其自有相機應用Kilk,可以自動幫用戶給照片上的Facebook好友打標籤。

  • 人臉識別DeepFace技術:

  • 2014年,Facebook推出的一款名爲DeepFace的面部識別技術,或許有望讓這一技術達到幾近人工識別的水平。據科技媒體theverge消息,DeepFace技術可以不受拍攝者拍攝角度影響,即可進行精準的面部識別,同時這一準確率現已達到97.25%。

  • 爲了研究DeepFace,Facebook建立了一個來自於4030個人的440萬張標籤化的人臉池,公司稱這是迄今爲止規模最大的人臉池。

  • DeepFace運用深度學習將人臉識別提高到Human-level,Memory Networks,在深度學習中加入長期記憶(Long-term memory)以構建自然語言問答系統,開源深度學習框架Torch的更新和推廣,運用快速傅利葉變換加速卷積運算的CuFFT,等等。

  • 視頻識別:

Facebook在視頻識別技術上已經取得一些進展,能夠在查看視頻的同時理解並區 分視頻中的物體,例如貓或食物。對視頻中物體的實時區分功能將大大提高Facebook視頻直播內容的推薦準確性,而且隨着技術水平的提升,未來機器將能 根據場景、物體和動作的時空變化給出實時的描述。

4. Facebook語音能力:

  • 2013年8月,Facebook收購語音識別和機器翻譯公司MT。Mobile Technologies(簡稱MT)以研究語音識別和機器翻譯技術爲主,MT推出的Jibbigo應用,支持超過25種語言的語音和文字互譯。

  • 2015年1月,Facebook收購語音識別公司Wit.ai。Wit.ai 1畢業於Y Combinator,其開發出了一款能夠創建語音激活界面的API接口。Wit.ai併入Facebook後,將和移動開發後臺服務商Parse一起爲Facebook提供語音控制開發工具,加強Facebook Messenger的語音輸入功能,提升語義理解水平。之後,Facebook順勢建立了語言技術部門。

(二)Facebook人工智能技術開放

1. 開源Torch上訓練神經網絡模塊:

2015年1月,Facebook開源了一些用於在Torch上更快速地訓練神經網絡的模塊,這些模塊合稱爲 fbcunn ,它們“比默認模塊快得多”。Facebook希望可以降低人工智能領域的門檻,從智能語音到圖像識別再到語言處理,讓更多的“外行人”有機會開發出屬於自己的AI服務。

2. 人工智能開源軟件Torchnet

  • 在新發布的一篇學術報告中,Facebook詳細介紹了新的人工智能開源軟件Torchnet,用於簡化深度學習。在深度學習領域,Facebook沒有選擇建立一個全新的深度學習框架, 而是在 Torch 上編譯一個開源庫。

  • Torchnet 是用 Lua 腳本語言寫成,能夠在標準的x86芯片或圖形處理單元(GPUs)上運行,也可以讓程序員重用某些代碼。這樣一來就能夠降低工作量,同時也可以降低出現bug的機率。

3. 開源Big Sur人工智能平臺

  • Facebook的人工智能研發團隊近日宣佈,將開源人工智能硬件平臺Big Sur,並表示該智能平臺開源將有助於其他公司和研究人員之間合作,促進未來設計的創新,構建更復雜的AI系統。

  • Big Sur採用GPU驅動,可以處理大型數據,具有強大的計算能力,且可以用於神經網絡的開發。此次開源的Big Sur硬件的設計特點是易於維修的主板,帶有8個NVIDIA的Tesla M40 GPU。神經網絡對人工智能的研究來說十分重要,這是Facebook第一次開源人工智能硬件設計。

  • Facebook將把這一硬件設計提交給Open Compute Project(開放計算項目),並承諾將向該項目提供系統設計、尤其是完整的人工智能任務創建方法。

--------------------

對於深度學習和人工智能的未來趨勢,百度首席科學家吳恩達在“Why deep learning is suddenly changing your life“的文章中表示:“在過去,許多標普500強CEO希望自己能早點意識到互聯網戰略的重要性。今後5年也會有一些標普500強CEO後悔沒有早點思考自己的AI戰略。AI就是新的電力,100年前電力變革了一個又一個行業,現在AI也會做同樣的事情。”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章