原创 海量數據處理經典面試題

  第一部分、十道海量數據處理面試題 1、海量日誌數據,提取出某日訪問百度次數最多的那個IP。       首先是這一天,並且是訪問百度的日誌中的IP取出來,逐個寫入到一個大文件中。注意到IP是32位的,最多有個2^32個IP。同樣可以採

原创 文本分類簡介

 一.概述   文本分類在文本處理中是很重要的一個模塊,它的應用也非常廣泛,比如:垃圾過濾,新聞分類,詞性標註等等。它和其他的分類沒有本質的區別,核心方法爲首先提取分類數據的特徵,然後選擇最優的匹配,從而分類。但是文本也有自己的特點,根據

原创 貝葉斯算法之文本分類

  第1章 貝葉斯原理 1.1 貝葉斯公式 設A、B是兩個事件,且P(A)>0,稱 爲在事件A發生的條件下事件B發生的條件概率。 乘法公式 P(XYZ)=P(Z|XY)P(Y|X)P(X) 全概率公式 P(X)=P(X|Y1)+ P(X

原创 Android之佈局參數

android:id  —— 爲控件指定相應的ID android:text —— 指定控件當中顯示的文字,需要注意的是,這裏儘量使用strings.xml文件當中的字符串 android:grivity —— 指定控件的基本位置,比如說

原创 各種排序算法總結(C語言)

 / / 不斷更新,也歡迎大家補充!   一、冒泡排序(BubbleSort) 1. 基本思想:   兩兩比較待排序數據元素的大小,發現兩個數據元素的次序相反時即進行交換,直到沒有反序的數據元素爲止。 2. 排序過程:   設想被排序的數

原创 如何簽好三方協議!

簽訂“三方協議”注意事項   1.正確區分協議期、試用期和見習期這三個時期,這直接關係到畢業生的權益維護。   協議期:是從畢業生與用人單位簽訂就業協議書開始,一直持續到簽訂勞動合同之後或者雙方終止協議爲止。在協議期內,雙方已經確定了

原创 KNN算法

 k-Nearest Neighbor algorithm 是K最鄰近結點算法(k-Nearest Neighbor algorithm)的縮寫形式   該算法的基本思路是:在給定新文本後,考慮在訓練文本集中與該新文本距離最近(最相似)的

原创 搜索引擎原理簡介

  搜索引擎可以分爲4個系統:下載系統、分析系統、索引系統和查詢系統。前三個是“離線系統”,最後一個是“在線系統”。   下載系統負責從互聯網上下載

原创 Map與Hash_map

 Hash_map   0 爲什麼需要hash_map 用過map吧?map提供一個很常用的功能,那就是提供key-value的存儲和查找功能。例如,我要記錄一個人名和相應的存儲,而且隨時增加,要快速查找和修改: 嶽不羣-華山派掌門

原创 new與malloc的區別

  1.malloc與free是C++/C語言的標準庫函數,new/delete是C++的運算符。它們都可用於申請動態內存和釋放內存 2.對於非內部數據類型的對象而言,光用maloc/free無法滿足動態對象的要求。對象在創建的同時要自動

原创 Java之線程詳解

   線程簡介       隨着計算機的飛速發展,個人計算機上的操作系統也紛紛採用多任務和分時設計,將早期只有大型計算機才具有的系統特性帶到了個人計算機系統中。一般可以在同一時間內執行多個程序的操作系統都有進程的概念。一個進程就是一個執行

原创 數據挖掘十大經典算法

/ / 轉載自July的博客 參考文獻: 國際權威的學術組織ICDM,於06年12月年評選出的數據挖掘領域的十大經典算法: C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN,

原创 讀完它,受益匪淺……

讓你少奮鬥10年的工作經驗           第一:不要認爲停留在心靈的舒適區域內是可以原諒的。      每個人都有一個舒適區域,在這個區域內是很自我的,不願意被打擾,不願意被push,不願意和陌生的面孔交談,不願意被人指

原创 Java之equals與==的區別

java中equals和==的區別   值類型是存儲在內存中的堆棧(以後簡稱棧),而引用類型的變量在棧中僅僅是存儲引用類型變量的地址,而其本身則存儲在堆中。 ==操作比較的是兩個變量的值是否相等,對於引用型變量表示的是兩個變量在堆中存

原创 Hash原理

  1. 引言        哈希表(Hash Table)的應用近兩年纔在NOI中出現,作爲一種高效的數據結構,它正在競賽中發揮着越來越重要的作用。 哈希表最大的優點,就是把數據的存儲和查找消耗的時間大大降低,幾乎可以看成是常數時間