原创 Spark內存參數調節

原文地址: http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/ -- In the conclusion to this s

原创 大數據架構文章整理

以下是學習數據分析過程中用到的文檔: 一、 Hadoop相關: 0. hadoop十年解讀與發展預測: http://www.infoq.com/cn/articles/hadoop-ten-years-interpretation-

原创 Hive相關資料整理

------- 什麼是HIVE http://www.aboutyun.com/thread-7411-1-1.html Programming Hive HIVE架構和工作原理 全面瞭解HIVE  HIVE實現原理

原创 vim自定義語法高亮

原文地址:http://vim.wikia.com/wiki/Creating_your_own_syntax_files#Install_the_syntax_file --

原创 hadoop streaming多用戶權限問題

原文地址:http://blog.sina.com.cn/s/blog_605f5b4f0101897z.html hdfs的權限判斷十分簡單,就是拿發出指令的user name和文件的user name 做比較   private

原创 redis在tag訂閱功能中的實踐

主要功能包括: 1. tag訂閱: zadd tag_sub_ct 1000 飛碟說 2. 返回訂閱量top500的tag: zrevrange tag_sub_ct 0 499 withscore 3. 刪除tag: zrem 飛碟說

原创 linux各種中文亂碼解決辦法整理

遠程登錄服務器用vim在終端下編輯查看文件經常會遇見各種中文亂碼問題。做如下設置可基本解決vim中文亂碼問題 首先查看系統對中文的支持locale -a | grep zh_CN 輸出樣例如下 zh_CN.gbk zh_CN.utf

原创 【好文收藏】理解python多線程

原文地址:http://agiliq.com/blog/2013/09/understanding-threads-in-python/ , http://my.oschina.net/leejun2005/blog/179265 ---

原创 使用base64 加密在URL安全傳遞|url_safe|php

原文地址:http://www.pylist.com/topic/1435231261 ------------- base64模塊是用來作base64編碼解碼的。這種編碼方式在電子郵件中是很常見的。它可以把不能作爲文本顯示的二進制數

原创 hadoop streaming

----- 如果程序運行所需要的可執行文件、腳本或者配置文件在Hadoop集羣的計算節點上不存在,則首先需要將這些文件分發到集羣上才能成功進行計算。 Hadoop提供了自動分發文件和壓縮包的機制,只需要在啓動Streaming作業

原创 Why is Map Reduce faster

原文地址:http://www.onebigfluke.com/2013/01/why-is-map-reduce-faster-practical.html 關鍵點: hadoop在map後會做shuffle、sort處理數據結構,然後

原创 yum install killall pstree

redhat7下使用這個命令完成安裝: yum install psmisc 點贊 收藏 分享 文章舉報 d4shman 發佈了330 篇原創文章 · 獲贊 115 · 訪問

原创 通過explain對mysql索引優化

原文地址: http://www.cnblogs.com/zaric/archive/2012/09/28/2707248.html ----------- 今天優化了多條SQL語句。都是EXPLAIN的功勞,分析SQL子句的執行順序

原创 mysql innodb auto_increment id不連續增長問題

原文地址:http://thenoyes.com/littlenoise/?p=187 --------- Why are there gaps in my auto_increment sequence, even if ther

原创 Spark RDD基本操作

Spark RDD Scala語言編程 RDD(Resilient Distributed Dataset)是一個不可變的分佈式對象集合, 每個rdd被分爲多個分區, 這些分區運行在集羣的不同節點上。rdd支持兩種類型的操作:轉