原创 海量數據面試題整理

1. 給定a、b兩個文件,各存放50億個url,每個url各佔64字節,內存限制是4G,讓你找出a、b文件共同的url? 方案1:可以估計每個文件安的大小爲50G×64=320G,遠遠大於內存限制的4G。所以不可能將其完全加載到內存中

原创 企業掘金大數據的兩種選擇

  究竟如何才能把數據轉化爲利潤呢? 對大多數公司來說, 有兩種選擇, 一是數據導向的流程, 二是數據導向的產品。    如今,你到哪兒都能聽到大數據。別說是亞馬遜這樣的公司,現在就是一個小的Startup, 每天也能有幾個G的數據量

原创 BI項目中常見問題---模型設計

各位BI大俠大家好,好久沒寫點東西了,今天由於得了重感冒,無法工作,但有不希望浪費時間在無聊的網絡中,寫點東西來打發時間吧。   今天討論的話題是《BI項目中常見問題—非技術類》         大家出於不同的公司,做的也當然是不

原创 貝葉斯算法會是破解“App刷票”的良方

近日,沸沸揚揚的360 App刷排名事件及其背後黑色產業鏈的浮現讓公衆對App Store的公正性引發質疑。儘管蘋果官方已於2月7日針對其應用程序開發者發出一份帶有警告意味的聲明,勸告開發者不要試圖操縱App Store排行榜,並表示將加

原创 十大數據挖掘算法及各自優勢

國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 2006年12月評選出了數據挖掘領域的十大經典算法:C4.5, k-Means, SVM, Apriori

原创 CDH4.1

繼6月份推出CDH4後,Cloudera於本月推出了CDH4.1版(注:Cloudera每年會推出一個新的CDH版本,並且大約每隔3個月會對當前的CDH作一次更新)。除了常規的補丁和性能改善,這一更新包含了關於HDFS和安全性方面的幾個

原创 當瀏覽器默認禁用第三方cookie

前一陣子,我們發現高版本的Safari中默認會阻止第三方cookie,如下圖所示。 問題 什麼是第三方cookie呢?在訪問一個網站A時,網站A算作第一方,如果網站A中引用了另一個網站X(網站X的域名與網站A的域名不同)的資源

原创 新浪發佈首款全媒體覆蓋廣告平臺“龍淵”

【小編:新浪此次的“龍淵”廣告平臺稱“全面向第三方監測開放”,這對第三方監測是利好,手機與PC對起來這種機會各大數據公司應該都嘗試也監測下,拉下數據。提醒一下從業人員哦,新浪這個“龍淵”哦,其實是個DSP耶,類似騰訊騰果,龍淵與獨立DS

原创 Ad Network、Ad Exchange、DSP、SSP、RTB 和DMP 是什麼?

Ad Network、Ad Exchange、DSP、SSP、RTB、DMP 這些模式之間存在着內在的關係,所以在理解的時候,我們需要聯繫起來進行理解,不能分開。1、RTB(Real Time Bidding,實時競價):定義:是一種

原创 Cloudera Hue Issues

在使用Cloudera Hue時遇到一問題: 1. 使用Sqoop導入功能時,由於配置錯誤,使得“保存運行”後Job並不能正常提交,且界面上沒有相關提示: 使用Hue的Sqoop shell -》 start job --jid * 提交

原创 數據如何幫助業務

文 / 阿里巴巴集團商業智能部資深經理 歐吉良(勾踐)          數據的重要性已經被越來越多的公司、個人所熟知與接受,甚至於有過猶不及之勢頭。大數據的概念滿天飛,似乎一夜之間人人都在談論大數據,見了面不用 大數據

原创 Cloudera Community Forum: 用戶分享和交流大數據技術的網上社區

爲了更好地爲遍佈世界各地的廣大CDH用戶,Cloudera Manager用戶及Cloudera其他產品及服務的用戶服務,幫助用戶解決從認識大數據,發現應用案例,POC,產品試驗到部署Hadoop,系統 遷徙,過程及隊伍建設,Hadoo

原创 什麼是大數據隨談

什麼是比高達他?比高達他?呵呵,其實我想輸入“什麼是大數據”,一不小心大數據敲成了英文Big Data,就成了上面的“什麼是比高達他?”,你大概猜到了我用的是什麼中文輸入法,呵呵,兄弟姐妹大叔大嬸們,我們有很多共同點啊。今天突然想起來前

原创 從問題域出發認識Hadoop生態系統

近些年來Hadoop生態系統發展迅猛,它本身包含的軟件越來越多,同時帶動了周邊系統的繁榮發展。尤其是在分佈式計算這一領域,系統繁多紛雜,時不時冒出一個系統,號稱自己比MapReduce或者Hive高效幾十倍,幾百倍。有一些無知的人,總是跟

原创 大數據工程人員知識圖譜

在企業裏面從事大數據相關的工作到底需要掌握哪些知識呢? 我認爲需要從兩個角度來看:一個是技術;一個是業務。技術上主要涉及到概率和數理統計,計算機系統、算法和編程等;而業務的角度呢則是因公司業務的不同而異。對於從事大數據的工程人員來說,需要