原创 Python 實現簡單的通訊錄

簡單的通訊錄實現,A byte of Python的例子 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

原创 Python 創建文件備份

一個簡單的例子,A byte of Python的例子,利用系統自帶的命令創建某些文件的備份,放入指定的目錄中。 簡單功能已具有,先記下,今後可以和網盤接口連接。 1 2 3 4 5 6 7 8 9 10

原创 一些常用shell腳步

記錄和收集一些常用shell,方便查閱學習,不斷更新中。。。 **************************************************************************************

原创 初識Hadoop

古代,人們用牛來拉重物。當一頭牛拉不動一根圓木時,他們不曾想過培育 更大更壯的牛。同樣,我們也不需要嘗試開發超級計算機,而應試着結合使用更多計算機系統。   什麼是Hadoop: Hadoop提供了一個可靠的共享存儲和分析系統。包

原创 Hive,Pig,HBase 區別與聯繫

看了幾天的Hadoop生態系統,對Hive,Pig,HBase搞的有些糊塗,查閱時發現糊塗的不止我一個,如某個鳥問的帖子發表的疑問,when to use Hbase and when to use Hive?....請教了google

原创 微博數據清洗(Java版)

大數據公益大學提供的一份數據,義務處理一下,原始數據是Excel,含有html標籤,如下: 要求清洗掉html標籤,和微博內容中的url地址。 主要分爲兩部分: 1.處理文本,清洗數據。 2.處理excel讀寫操作。 上代碼: E

原创 MapReduce編程實例(一)

前提準備: 1.hadoop安裝運行正常。Hadoop安裝配置請參考:Ubuntu下 Hadoop 1.2.1 配置安裝 2.集成開發環境正常。集成開發環境配置請參考 :Ubuntu 搭建Hadoop源碼閱讀環境 MapReduce編程

原创 Ubuntu 安裝HBase

下載:http://mirror.bit.edu.cn/apache/hbase/stable/ 官方指南:http://abloz.com/hbase/book.html 安裝配置: 解壓: tar -xzvf hbase-0.96.

原创 MapReduce編程實例(六)

前提準備: 1.hadoop安裝運行正常。Hadoop安裝配置請參考:Ubuntu下 Hadoop 1.2.1 配置安裝 2.集成開發環境正常。集成開發環境配置請參考 :Ubuntu 搭建Hadoop源碼閱讀環境 MapRed

原创 微博數據清洗(Python版)

具體介紹請參考: 微博數據清洗(Java版) 本文是Python版本的介紹,只有數據清洗部分不含對Excel的操作,包含去除html標籤和去掉信息裏的url地址。 Python的代碼相對java簡明瞭太多 # -*- coding:

原创 MapReduce編程實例(三)

前提準備: 1.hadoop安裝運行正常。Hadoop安裝配置請參考:Ubuntu下 Hadoop 1.2.1 配置安裝 2.集成開發環境正常。集成開發環境配置請參考 :Ubuntu 搭建Hadoop源碼閱讀環境 MapRed

原创 MapReduce編程實例(二)

前提準備: 1.hadoop安裝運行正常。Hadoop安裝配置請參考:Ubuntu下 Hadoop 1.2.1 配置安裝 2.集成開發環境正常。集成開發環境配置請參考 :Ubuntu 搭建Hadoop源碼閱讀環境 MapRed

原创 MapReduce編程模型

MapReduce編程模型概述 MapReduce適用的場景具有共同的特點:任務可以分解爲相互獨立的子任務。 MarReduce編程接口體系結構 編程模型位於MapReduce Runtime和應用層之間,共有兩層,第一層是Java AP

原创 MapReduce編程實例(五)

前提準備: 1.hadoop安裝運行正常。Hadoop安裝配置請參考:Ubuntu下 Hadoop 1.2.1 配置安裝 2.集成開發環境正常。集成開發環境配置請參考 :Ubuntu 搭建Hadoop源碼閱讀環境 MapRed

原创 MapReduce編程實例(四)

前提準備: 1.hadoop安裝運行正常。Hadoop安裝配置請參考:Ubuntu下 Hadoop 1.2.1 配置安裝 2.集成開發環境正常。集成開發環境配置請參考 :Ubuntu 搭建Hadoop源碼閱讀環境 MapRed