原创 將博客搬至CSDN

還是搬到csdn吧

原创 我的友情鏈接

51CTO博客開發

原创 權限

1.chmod,用以修改文件的權限  Linux中文件的存取權限分爲三種:文件擁有者(user)、羣組(group),其他(other) 使用方式:   $chmod [-cfvR] [--help] [--version]  mode f

原创 sed命令

1.簡介      sed命令不會修改文件的內容,除非使用shell的I/O重定向,默認所有的輸出行都輸出到標準輸出中。2.過濾(定址)   可以使用過濾條件確定需要編輯的行,數字、正則、前兩者結合,如果沒有過濾,則默認輸出所有行。    

原创 布隆過濾器

Bloom Filter是一種空間利用率很高的隨機數據結構,它用位數組很簡潔地表示一個集合,並能判斷一個元素是否包含於該集合。Bloom Filter用一定的代價換取這種高效:在判斷一個元素是否包含於該集合時,有一定的機率(即誤判率 fal

原创 我的友情鏈接

51CTO博客開發

原创 布隆過濾器

Bloom Filter是一種空間利用率很高的隨機數據結構,它用位數組很簡潔地表示一個集合,並能判斷一個元素是否包含於該集合。Bloom Filter用一定的代價換取這種高效:在判斷一個元素是否包含於該集合時,有一定的機率(即誤判率 fal

原创 將博客搬至CSDN

還是搬到csdn吧

原创 爬蟲(一)---爬行算法

最近想梳理一下搜索搜索引擎相關的理論與技術,從爬蟲開始,總結一下這方面的問題與解決方案。 不論是分佈式爬蟲還是單體爬蟲、主題爬蟲等,最關鍵的是爬行算法,而作爲爬蟲數據源的互聯網可以抽象的看作是一張有向圖,現對該圖定義如下: 1.將互聯網

原创 JVM系列(二)--垃圾收集

如果從垃圾收集進行分析,我覺得可以從兩個方面進行: 1.如何判斷某一個對象可以進行回收 2.在哪些Runtime Data Area進行回收 3.如何進行回收一.判斷某個對象是否可以回收 主流的商用語言,如Java及C#甚至L

原创 權限

1.chmod,用以修改文件的權限  Linux中文件的存取權限分爲三種:文件擁有者(user)、羣組(group),其他(other) 使用方式:   $chmod [-cfvR] [--help] [--version]  mode f

原创 JVM系列(一)--JVM運行時數據區

隨着時間的推移,我覺得有必要將一些之前相對模糊但是對自身技術提高會有幫助的原理、概念、實現進行一下系統的整理,所以就從JVM系列開始吧。 本系列主要參考《Java虛擬機規範(第二版)》、周志明先生寫的《深入理解Java虛擬機》,

原创 爬蟲(二)-關於單體爬蟲的設計問題

本文的前提是:不考慮分佈式及集羣形式的爬蟲,從單體爬蟲入手,分析爬蟲的各組成部分及設計思路。 一.宏觀分析 首先從宏觀上理解,爬蟲主要的作用是在最短的時間內爬取最多的質量最高的網頁,爲之後的索引階段提供最基本的數據源。 上一篇

原创 鏈表的基本原理

   這幾天正好辭職,在家閒着讀書,感覺自己數據結構與算法這塊始終是一個弱項,所以就以博客的形式記錄自己重讀經典的過程。水平有限,文中不免出現謬誤,還請閱讀本文的童鞋指正。每個抽象數據結構都會以三種強類型語言C、C++、Java實現  

原创 sed命令

1.簡介      sed命令不會修改文件的內容,除非使用shell的I/O重定向,默認所有的輸出行都輸出到標準輸出中。2.過濾(定址)   可以使用過濾條件確定需要編輯的行,數字、正則、前兩者結合,如果沒有過濾,則默認輸出所有行。