原创 Ansible vs Chef

Postedby ScriptRock  Jul 17, 2014 8:00:00 AM This is a tale of a newcomer vsa relative oldie in the Configuration Manag

原创 美團推薦算法實踐:機器學習重排序模型成亮點

摘要:本文介紹了美團網推薦系統的構建和優化過程中的一些做法,包括數據層、觸發層、融合過濾層和排序層五個層次,採用了HBase、Hive、storm、Spark和機器學習等技術。兩個優化亮點是將候選集進行融合與引入重排序模型。 編者按

原创 深入解析NoSQL數據庫的分佈式算法

摘要:儘管NoSQL運動並沒有給分佈式數據處理帶來根本性的技術變革,但是依然引發了鋪天蓋地的關於各種協議和算法的研究以及實踐。在這篇文章裏,我將針對NoSQL數據庫的分佈式特點進行一些系統化的描述。 系統的可擴展性是推動NoSQL運

原创 全面落地,2014大數據應用案例TOP100

在當前的互聯網領域,大數據的應用已十分廣泛,尤其以企業爲主,企業成爲大數據應用的主體。大數據真能改變企業的運作方式嗎?答案毋庸置疑是肯定的。隨着企業開始利用大數據,我們每天都會看到大數據新的奇妙的應用,幫助人們真正從中獲益。大數據的應用

原创 卡耐基梅隆大學教授邢波:Petuum,大數據分佈式機器學習平臺

要:BDTC 2014中國大數據技術大會首日全體大會上,卡耐基梅隆大學教授、ICML 2014程序主席邢波帶來了名爲“A New Platform for Cloud-based Distributed Machine Learning

原创 大數據計算新貴Spark在騰訊雅虎優酷成功應用解析

摘要:MapReduce在實時查詢和迭代計算上仍有較大的不足,目前,Spark由於其可伸縮、基於內存計算等特點,且可以直接讀寫Hadoop上任何格式的數據,逐漸成爲大數據處理的新寵,騰訊分享了Spark的原理和應用案例。 【編者按】

原创 程學旗發佈大數據白皮書與發展趨勢報告

程學旗摘要:中科院計算所研究員,CCF大數據專家委員會祕書長程學旗發佈大數據白皮書與發展趨勢報告。介紹了大數據的背景與動態、典型應用、技術進展等內容。程學旗對2015年大數據發展預測用了8個字:融合、跨界、基礎、突破。 【CSDN現

原创 Facebook的數據倉庫是如何擴展到300PB的

摘要:Facebook在數據倉庫上遇到的存儲可擴展性的挑戰是獨一無二的。我們基於Hive的數據倉庫中存儲了超過300PB的數據,並且以每日新增600TB的速度增長。去年這個數據倉庫所存儲的數據量增長了3倍。 Facebook在數據倉

原创 在雲上搭建大規模實時數據流處理系統

如今數據規模變得越來越大,傳統的軟硬件工具已很難滿足數據處理的需求。本文將結合汽車狀態實時監控系統,講述如何在阿里雲上使用Kafka和Storm搭建大規模消息分發和實時數據流處理系統,及其中遇到的挑戰。 在大數據時代,數據規模變得越來