原创 初探map/reduce原理

下面的代碼來自於hadoop官網,但是那個例子很繁瑣,我對此作了簡化運行下面代碼必須在linux系統上,並且已經成功部署安裝hadooppackage com.hadoop.test3;import jav

原创 "Host 'localhost' is not allowed to connect to this MySQL server" 的原因及解決辦法

今天在操作數據庫的是否發現突然無法啓動MYSQL服務,想了想原因是因爲自己改動了my.ini文件導致的。所以大家千萬不要隨便改哦~解決無法啓動mysql的問題很容易,在安裝根目錄下都會有my.ini文件的備

原创 Ubuntu文件系統

[b]一、Ubuntu文件系統的主要目錄[/b][table]|目錄|英文全名|用途||/|/|整個目錄結構的起始點,所有其他文件和目錄都在它下面||/bin|Binaries|用來存放最常用的二進制命令|

原创 KFS 正式部署的時候遇到的問題

[b]一,大硬盤掛載[/b]1 查看所有的磁盤sudo fdisk -l |more 2 設置磁盤sudo fdisk /dev/sdb -compatible mode is deprecated. I

原创 抓取中應該考慮GB編碼的問題

今天,測試的同學在測試我的爬蟲的時候發現了一些‘?’的字符,也就是無法識別編碼的字符。開始我很詫異,畢竟我用了自動編碼識別的很成熟的架構,爲蝦米會有這種字符?仔細分析了一下頁面,頁面的編碼是'gbk'而用我

原创 Hadoop第一步:部署分佈式服務

[color=red][b]原創文章:轉載請註明出處[/b][/color]最近有幸開始接觸雲。哈哈,先從hadoop入手部署hadoop的文檔很多,但是還是遇到了不少問題,下面和大家分享一下我的部署全過程

原创 linux壓縮和解壓縮

首先到你需要壓縮/解壓的目錄下 cd /home/..用ls命令查看此目錄下的所有文件解壓比如我要解壓test.tar.gz文件用 gzip -d test.tar.gz命令這樣test.tar.gz 就會

原创 KFS部署與應用

[b][color=red]原創文章:轉載請註明出處http://wangwei3.iteye.com/blog/905856[/color][/b][b]安裝軟件[/b][b]一、安裝依賴軟件[/b]1、

原创 爬蟲 js,flash,ajax網頁(JREX)

抓取的過程中會遇到很多對爬蟲不友好的頁面,比如js,ajax,flash等等,正在爲這些頁面苦惱時發現JREX,調用firefox內核渲染頁面可以很好的解決這些問題不過現在JREX已經沒有人維護了最新版是在

原创 spider技術綜述

轉自soso 出處:http://blog.csdn.net/soso_blog/archive/2010/07/28/5771350.aspx Spider系統是搜索引擎當中進行互聯網上數據採集的

原创 Hypertable 的安裝與整合KFS

[color=red][b]原創文章:轉載請註明出處 http://wangwei3.iteye.com/admin/blogs/909096[/b][/color][b]安裝Hypertable[/b]下

原创 Ubuntu下固定ip的網卡配置

來源:linux公社Ubuntu下固定ip的網卡配置準備工作要先了解下vi命令,隨便google下就能瞭解: 1。單網卡配單IP(普遍)vi /etc/network/interfaceauto eth0i

原创 代碼整合鏈接KFS

[b]客戶端代碼[/b] 通過應用程序使用API,有兩個例子在以下包中。 - ~/code/kfs/examples/KfsTest_main.cc - ~/code/kfs/examples/KfsTes

原创 HTTP header

有四種頭標:1. 通用頭標 既可用於請求有可用於響應,並且是作爲一個整體而不是特定資源 與事務相關聯。2. 請求頭標 允許客戶端傳遞關於自身信息和希望的響應形式。3. 響應頭標 服

原创 htmlparser抽取表格

[b][color=red]原創文章:轉載請註明出處[/color][/b]try { Parser parser=new Parser("http://detail.zol.com.cn/260/25