原创 eclipse搭建hadoop開發環境

1.版本 hadoop:apache0.20.0 eclipse:3.3.0 2.插件 hadoop自帶,contrib/eclipse_plugin 3.步驟 * 將hadoop自帶插件拷貝至eclipse plugins目錄 * 啓動

原创 hadoop 配置說明

    Hadoop配置文件設定了Hadoop平臺運行時各方面屬性。大量實驗證明,合理的配置會大大提高Hadoop的性能。      在Hadoop-0.19.2版 本中,Hadoop配置文件在conf目錄下,包括文件     

原创 Redis配置

Redis 安裝redis 需要修正版本到2.4RC,集成了jemalloc,不再需要tcmalloc編譯前手工修改src/Makefile,修改其中的PREFIX參數到/usr/local/redis,使得安裝位置爲/usr/loc

原创 hadoop中使用lzo壓縮

步驟: 1、 編譯hadoop-lzo-xx.jar hadoop lzo下載位置: https://github.com/twitter/hadoop-lzo 2、拷貝hadoop-lzo-xx.jar至hadoop/lib目錄下,同時

原创 Python調用C語言函數

使用Python的ctypes,我們可以直接調用由C直接編譯出來的函數。其實就是調用動態鏈接庫中的函數。爲什麼我們需要這樣做呢,因爲有些時候,我們可能需要一個性能上比較講究的算法,有些時候,我們可以在Python中使用已經有了的現成的被

原创 iptables端口映射設置

 503  iptables -P FORWARD DROP   504  iptables -A FORWARD -m state --state ESTABLISHED,RELATED -j ACCE

原创 centos5掛載ext4磁盤

1、系統內核2.6.18-164.el5 2、 安裝工具e4fsprogs-1.41.12-2.el5.x86_64.rpm 3、格式化磁盤mkfs.ext4 /dev/xxx 4、設置磁盤標籤 tune4fs -L/label /dev

原创 hive問題及解決1

1、hive使用mysql存儲元數據,報錯:hive> show tables; FAILED: Error in metadata: javax.jdo.JDODataStoreException: E

原创 linux下路由配置文件

分爲系統路由,網卡路由(redhat8以上),靜態路由 系統路由在/etc/sysconfig/network中可以設置 網卡路由在/etc/sysconfig/nework-script/ifcfg-ethX中可以設置 靜態路由在/et

原创 hadoop新增datanode處理

1、 新增hadoop用戶,與其它datanode採用相同主目錄路徑 2、 datanode之間ssh無密碼通信設置 3、 hadoop部署(與其它datanode採用相同路徑) 4、 修改/etc/hosts,增加集羣其它節點信息 5、

原创 hadoop問題解決

1、datanode:java.io.IOException: Too many open files Too many open files 比較明顯,就是已經到達每個 Process 可以開啟的檔案個數上限。 請修改 /etc/se

原创 mysql主從同步問題思考

今天突然發現mysql主從同步從庫的數據沒有更新,但通過“show slave status”命令發現slave狀態正常。通過查看slave日誌,發現“[ERROR] Error reading packet from server: G

原创 Linux 釋放內存命令

Linux 釋放內存命令 現在論壇在線人數有時候突然猛增,內存暴增,然後就服務器掛了。找到一個方法 先運行:     sync 然後:     echo 3 > /proc/sys/vm/drop_caches          

原创 圖說“什麼是數據挖掘”

摘要: 1、數據挖掘需要‘神馬樣’的流程?2、哥,有沒有詳細點的,來個給力的!3、數據挖掘在商業上的理解是?4、數據在統計意義上有哪些類型?5、他們的含義是什麼呢?6、基本的探測指標有哪些?7、數據挖掘的算法有哪些呢 ...

原创 awk輸出到多個文件

 awk '{print $1 >$2}'  file 以上代碼實現將file中第一個字段寫入文件名$2的文件中,寫的方式爲追加寫。