李彥宏爲何推出百度大數據引擎？大數據引擎可以幹什麼？

在昨天（4月24日）的百度技術開放日上，李彥宏現身並推出了百度大數據引擎。這在百度，表明對相關產品最高的重視了。

這個發佈是什麼意思呢？簡單地講，大數據引擎將百度在大數據的數據、能力和技術開放給行業，行業可以近身距離甚遠的大數據盛宴，百度則尋到了一個新的增長點。

大數據引擎三件套

百度大數據引擎一共分三個部分。

開放雲：百度的大規模分佈式計算和超大規模存儲雲。過去的百度雲主要面向開發者，大數據引擎的開放雲則是面向有大數據存儲和處理需求的“大開發者”。

百度的開放雲擁有超過1.2萬臺的單集羣，超過阿里飛天計劃的5k集羣。百度開放雲還擁有CPU利用率高、彈性高、成本低等特點。百度是全球首家大規模商用ARM服務器的公司，而ARM架構的特徵是能耗小和存儲密度大，同時百度還是首家將GPU（圖形處理器）應用在機器學習領域的公司，實現了能耗節省的目的。

數據工廠：開放雲是基礎設施和硬件能力，你可以把數據工廠理解爲百度將海量數據組織起來的軟件能力。就像數據庫軟件的位置一樣。只不過數據工廠是被用作處理TB級甚至更大的數據。

百度數據工廠支持單詞百TB異構數據查詢，支持SQL-like以及更復雜的查詢語句，支持各種查詢業務場景。同時百度數據工廠還將承載對於TB級別大表的併發查詢和掃描，大查詢、低併發時每秒可達百GB，在業界已經是很領先的能力了。

百度大腦：有了大數據處理和存儲的基礎之後，還得有一套能夠應用這些數據的算法。圖靈獎獲得者N.Wirth(沃斯)提出過“程序=數據結構+算法”的理論。如果說百度大數據引擎是一個程序，那麼它的數據結構就是數據工廠+開放雲，而算法則對應到百度大腦。

百度大腦將百度此前在人工智能方面的能力開放出來，主要是大規模機器學習能力和深度學習能力。此前它們被應用在語音、圖像、文本識別，以及自然語言和語義理解方面，被應用在不少App，還通過百度Inside等平臺開放給了智能硬件。現在這些能力將被用來對大數據進行智能化的分析、學習、處理、利用。百度深度神經網絡擁有200億個參數，是全球規模最大的，它擁有獨立的深度學習研究院（IDL）和較早的佈局，在人工智能上百度已經快了一步，現在貢獻給業界表明了它要開放的決心。

大數據引擎可以幹嘛

百度將基礎設施能力、軟件系統能力以及智能算法技術打包在一起，通過大數據引擎開放出來之後，擁有大數據的行業可以將自己的數據接入到這個引擎進行處理。同時，一些企業在沒有大數據的情況下，還可以使用百度的數據以及大數據成果。

從架構來看，企業或組織也可以只選擇三件套中的一樣使用，例如數據存放在自己的雲，但要運用百度大腦的一些智能算法應該也是支持的。

舉幾個例子可能你更加清楚百度大數據引擎究竟是什麼。

許多政府部門擁有海量大數據——大數據經典之作《大數據》也是在講美國政府的大數據。但政府部門幾乎都沒有大數據處理和挖掘技術。交通部門有車聯網、物聯網、路網監控、船聯網、碼頭車站監控等地方的大數據，衛生部門擁有流感法定報告數據、全國流感樣病例哨點監測和病原學監測數據，公安部門有大量的視頻監控數據。如果這些數據與百度的搜索記錄、全網數據、LBS數據結合，在利用百度大數據引擎的大數據能力，則可以實現智能路徑規劃、運力管理、流感預測、疫苗接種指導、安防追逃等等。

許多企業也擁有海量大數據——通信、金融、物流、製造、農業等行業。不過，它們幾乎都沒有大數據能力，坐擁海量數據卻一籌莫展。這時候如果能夠應用百度大數據引擎，則可以對海量數據進行可靠低成本的存儲，進行智能化的由淺入深的價值挖掘。在百度技術開放日上，中國平安便介紹瞭如何利用百度的大數據能力加強消費者理解和預測，細分客戶羣制定個性化產品和營銷方案。

可以看出，大數據引擎的輸入實際上是百度擁有的大數據以及行業已有的大數據，而輸出則是各種行業應用成果，也就是大數據的“價值”。

與一些類似項目的對比

在百度之前，業界已經有一些類似的思路，即有一些大數據能力的企業視圖將自己在基礎能力或者軟件方面的優勢釋放出來。

Google：

大數據時代的奠基者。對應到百度開放雲，它有舉世聞名的數據中心以及基於Colossus的雲；對應到百度數據工廠，Google近年來爲迎接大數據時代不斷改造核心技術，包括比MapReduce批處理索引系統搜索更快的Caffeine，專爲BigTable設計的分佈式存儲Colossus比GFS還要先進，Dremel和PowerDrill管理和分析大數據，以及Instant和Pregel。對應到百度大腦，Google提供的大數據分析智能應用包括客戶情緒分析、交易風險（欺詐分析）、產品推薦、消息路由、診斷、客戶流失預測、法律文案分類、電子郵件內容過濾、政治傾向預測、物種鑑定等多個方面。技術有Big Query、趨勢圖等。

可以說Google與百度的思路最爲接近，不過Google目前還未將它的大數據能力打包起來以一個新“引擎”的方式共享。毫無疑問，這在不久之後就會發生。

亞馬遜：

雲計算的奠基者。亞馬遜是IaaS（基礎設施即服務），與阿里雲非常相似。亞馬遜在用戶交易、個人偏好、經濟領域的大數據能力可能比Google還要優秀，也被一些人視作這是亞馬遜與Google競爭的唯一機會。亞馬遜目前更多還是在雲領域做貢獻，雖然也有Redshift的方案，但在數據工廠和人工智能的開放上進展慢一些。

阿里巴巴：

亞馬遜對應回中國自然是阿里巴巴。阿里雲是國內最早的獨立運作的雲部門。數據則是阿里三大核心戰略之一，大數據也被擺到了阿里十分重要的位置，不懂技術的馬雲經常談及大數據都有人調侃他應該改名Data Ma。阿里在大數據基礎設施領域確實取得了突飛猛進的進展，飛天、Apsara、跨機房5K集羣都是知名的大數據項目，應對雙十一、餘額寶規模取現預測、廣告業務高速增長等業務場景也證明了阿里的大數據能力。

阿里大數據的思路便是做大數據的集市，讓阿里系之外的大數據能夠跑在阿里苦心搭建的大數據機器上運轉起來。不久之前阿里與東軟合作，後者的業務未來都將部署在阿里雲。這意味着東軟客戶的數據很可能會進入阿里的大數據體系。可以確定阿里將會推出類似大數據引擎的平臺，將大數據能力完全開放出來。

相比百度，阿里在“數據工廠”這塊應該是各有所長，在數據基礎領域以及業務理解方面有着電商領域的專注，但人工智能這塊跟百度比肯定會有不小差距。語音、圖像和自然語言理解，阿里並沒有多少積累，它更擅長處理結構化的數據。

其他電商玩家如京東和蘇寧也有類似的雲，與阿里和百度完全不在一個級別就不比較了。

Salesforce等軟件公司：

Salesforce近兩年收購了超過5家與社交大數據相關的營銷公司，目的是獲取更多的數據。其他的軟件廠商和方案廠商也有大數據引擎方面的佈局，EMC、Oracle有對應的大數據處理軟件，IBM有大數據行業方案，英特爾入股大了數據初創企業Cloudera，Cloudera推出的Impala比GoogleDremel還要快。Intel還推出了基於Hidoop的“大數據引擎”，加州伯克利大學AMPLab開發了名爲Shark 的大數據分析系統。

回到國內，華爲在去年發佈了大數據平臺產品FusionInsight，還有百分點科技這樣的基於大數據的推薦服務公司。而“天河2號”等獨立超級計算機也對外宣稱它們的超級計算能力將會逐步開放出來。

不過，軟件公司、方案公司以及超級計算機都無法做到像百度一樣將大數據作爲一種雲端能力打包開放出來，也無法同時具備基礎設施、數據工廠和智能算法的開放能力。尤其是“百度大腦”這部分，很少有其他具備這樣的“數據智能”的能力。

百度將用互聯網的方式來做開放的大數據引擎。它不可能採取與軟件方案公司一樣的“一竿子買賣”方式進行合作。而是將大數據引擎做成一個開放平臺，形成標準的接口，讓每個行業不同企業可以根據自身需求各取所需。而它的首要目的是獲取數據，然後是考慮變現。

變現方式可能是增值服務、收費雲、數據分析結果、技術諮詢等方式，這將改變百度盈利模式過渡依賴“搜索廣告”的現狀。有消息稱，大數據已經給Google每天帶來2300萬美元的收入，一年約爲82億美元。這已經遠遠超過百度2013年51億美金的年收入了。因此，如果百度大數據引擎能夠成功，很可能會爲之帶來源源不斷的數據以及現金流。

本文轉載自中國硅谷在線慧谷城信息港

李彥宏爲何推出百度大數據引擎？大數據引擎可以幹什麼？

這個網絡爬蟲代碼，拿到數據之後如何存到csv文件中去？

.NET開源強大、易於使用的緩存框架 - FusionCache

面試，有時候是個運氣活

BOOM BOOM：“只需觸控一下”的揚聲器

李彥宏爲何推出百度大數據引擎？大數據引擎可以幹什麼？

日本研製出用於電動汽車的鋰電池高耐熱技術

微軟專利：使用者可以“隔空”操控手機和平板電腦

Facebook第二家數據中心在愛荷華開建

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結