原创 FAQ 常見問題 -【Dr.Elephant系列文章-8】

這篇文章列舉了一些常見的問題,以及一些建議來幫助我們解決實際遇到的問題。 1. Dr.Elephant部署在哪裏? Dr.Elephant需要部署在一個有Hadoop平臺環境的機器上。Er.Elephant會在集羣上運行“hadoop c

原创 Dr.Elephant Rest API -【Dr.Elephant系列文章-7】

有的情況下,用戶可能不能訪問Dr.Elephant的UI界面,但是需要和Dr.Elephant進行交互來獲得Dr.Elephant的一些分析結果。Dr.Elephant提供了Rest API來滿足用戶的這個需求。 根據ID獲得應用信息 根

原创 Dr.Elephant啓發式算法指南 - 【Dr.Elephant系列文章-5】

Map-Reduce Mapper數據傾斜 數據進入到Mapper作業中後,有可能會發生數據的傾斜,Mapper數據傾斜啓發式算法(mapper data skew heuristic)能夠判定這種情況是否存在。啓發式算法會將所有的Map

原创 Indeed公司的 A/B Test 框架

本文由本人翻譯自Indeed官方blog,如果有轉載請註明出處。 原文地址:http://engineering.indeedblog.com/blog/2014/06/proctor-a-b-testing-framework/

原创 Dr.Elephant開發者指南 - 【Dr.Elephant系列文章-3】

創建Dr.Elephant項目 獲取源代碼 從Github倉庫中獲取代碼,dr-elephant。 編譯代碼 Dr.Elephant項目基於Play框架開發,所以開發Dr.Elephant項目的第一步就是安裝Play框架。可以在下面這個鏈

原创 Java中 ThreadLocal用法 - 個人實用總結

在多線程中同時被使用的類中使用ThreadLocal,能保證每個線程中有一個單獨的對象,互不影響。用法如下: 假如A類在多個線程中同時出現了(不管使用的是它的new對象還是用的靜態方法),假如需要在每個使用了A的線程中保存一個互不影響的

原创 Dr.Elephant用戶指南 - 【Dr.Elephant系列文章-2】

這篇文章介紹怎麼樣使用Dr.Elephant來進行任務分析。 UI首頁 Dr.Elephant啓動後,首頁如下: 集羣統計信息 首頁的灰色部分包含了最新的集羣信息。這部分列出了最近24小時分析過的任務數量、可以進行優化的任務數量以及亟

原创 Dr.Elephant簡介 - 【Dr.Elephant系列文章-1】

Dr.Elephant被定位成一個對Hadoop和Spark任務進行性能監控和調優的工具,它能夠自動收集Hadoop平臺所有的度量標準,並對收集的數據進行分析,並將分析結果以一種簡單且易於理解的形式展示出來。Dr.Elephant的設計

原创 矩陣原地轉置算法

        這個面試題要求現場寫程序。         題目描述非常簡單:給一個m*n的矩陣,要求實現矩陣的轉置,不要額外開闢內存空間。         題目分析:         如果可以開闢額外內存空間,我們可以申請一個n

原创 Dr.Elephant啓動過程問題彙總

在首次啓動Dr.Elephant時,因爲配置不當或者環境因素可能會導致啓動失敗。當啓動失敗後,我們可以從Dr.Elephant的日誌文件(默認的啓動日誌是dr.log)中查看啓動過程日誌,找到Error和Exception,定位問題所在。

原创 大型網站架構設計---經驗總結

個人的服務開發經驗總結: Web API服務: 1)負載均衡 固定用戶的請求,重定向到固定機房(機器),因爲機房之間數據的replication有延遲,這樣可以保證每個用戶訪問的數據都是沒有延遲的; 2)防止雪崩 擋住同IP頻繁的相同

原创 Dr.Elephant部署指南 - 【Dr.Elephant系列文章-4】

系統環境要求 Dr.Elephant通過Yarn的資源管理器和歷史任務服務來獲取任務的詳細信息。Dr.Elephant對歷史任務進行分析,然後把分析結果保存到後臺的數據庫中,Dr.Elephant默認使用MySQL數據庫。在運行Dr.El

原创 MySQL InnoDB引擎索引長度受限怎麼辦?

大家應該知道InnoDB單列索引長度不能超過767bytes,聯合索引還有一個限制是長度不能超過3072。 mysql> CREATE TABLE `tb` (      ->   `a` varchar(255) DEFAULT NUL

原创 中文文章情感分析-開源工具分享

最近研究了一陣子中文情感分析的一些paper,很感興趣,於是最終決定寫一箇中文情感分析的工具。作爲開源思想的忠實粉絲,我也獻醜一次,把自己拙劣的代碼呈現給大家,歡迎大家拍板磚。希望這個工具能給大家帶來一些實際的用處。 目前,這個工具只實現

原创 Hadoop任務優化建議 - 【Dr.Elephant系列文章-6】

使用Dr.Elephant來分析我們的任務,可以知道有哪些地方可以進行優化。 加速你的任務流程 對於特定的任務,最好有特定的參數配置。對於很多的應用場景來說,默認的任務配置並不能保證每個任務都有最好的性能。儘管對這些任務進行調優會花費一些