原创 索引的建立、更新策略

  一、索引的建立分爲三種方式: 1.兩遍文檔倒排法 第一遍文檔掃描時完成一些全局信息統計,如文檔集合的數量、每個文檔的單詞數量、詞頻等 第二遍文檔掃描的主要任務是填補每個單詞的倒排列表,完全在內存中進行 2.排序倒排法 步驟爲: 排序

原创 聚類算法的MapReduce並行化分析

五一假期,還好沒有出去,到處都是堵啊。閒在看看分類、聚類算法、關聯算法,現總結一下常見的聚類算法並進行MR分析。 1.K-means基本原理:首先隨機的選擇K個對象,每個對象代表一個簇的初始均值和中心;對剩餘的每個對象,根據其與各個簇的均

原创 聚類算法的MapReduce並行化分析

五一假期,還好沒有出去,到處都是堵啊。閒在看看分類、聚類算法、關聯算法,現總結一下常見的聚類算法並進行MR分析。 1.K-means基本原理:首先隨機的選擇K個對象,每個對象代表一個簇的初始均值和中心;對剩餘的每個對象,根據其與各個簇的均

原创 網頁分類算法

網頁自動分類是通過對某一特定的網頁樣本進行訓練獲得該類別網頁的形式化描述,在此基礎上訓練分類器,進而對未知類別的網頁進行類別判斷的技術。常用的分類器有

原创 java策略枚舉

 我們在使用Java的枚舉時往往會結合Switch來進行判斷以實現不同值的處理,但是我們知道多用switch不是一種很好的代碼風格,不利用維護和適應

原创 java動態編程簡述

 動態編程指的是改變經典編程方式(源文件-->編譯-->二進制文件---->運行方式)的行爲. 1.使用Compiler Api 創建類文件,同時允許在程序運行中編譯源文件。在動態使用java類時可以啓用診斷信息監聽器和編譯選項。 2.

原创 linux監控工具的使用總結

Linux統計/監控工具SAR詳細介紹:要判斷一個系統瓶頸問題,有時需要幾個 sar 命令選項結合起來使用,例如: 懷疑CPU存在瓶頸,可用 sar -u 和 sar -q deng 等來查看 懷疑內存存在瓶頸,可用 sar -B、sar

原创 solr中關於core的管理

一、查詢 1.core的狀態查詢 http://se246:8983/solr/admin/cores?action=STATUS 2.指定coreName進行查詢 http://localhost:8983/solr/admin/cor

原创 Java位運算優化:位域、位圖棋盤等

快速小測試:如何重寫下面的語句?要求不使用條件判斷語句交換兩個常量的值。   if (x == a) x= b;   else x= a;     

原创 機器學習週刊

推薦一個學習機器學習的網站: http://ztl2004.github.io/MachineLearningWeekly 點贊 收藏 分享 文章舉報 Towan 發佈了166

原创 Maven 中導出可執行的jar包

由於對maven還不大熟悉,一些簡單的操作都會折騰了好大一陣子。簡單記錄一下maven中導出可執行jar包 1.編輯POM文件,添加標籤文件,注意與依賴同級別,重要的是可以執行的java中的main方法的類     <build>   

原创 mysql數據庫實現類似oracle connect by prior的查詢

--注下面的語句用到了表 DROP TABLE IF EXISTS `a_sys_org`; CREATE TABLE `a_sys_org` (   `org_id` varchar(32) NOT NULL COMMENT '機構號'

原创 網頁去重算法

網頁去重發生在網頁下載後、索引建立前,典型的網頁去重算法有SHINGLING、I-MATCH算法、Random Projection、SimHash算

原创 java標記接口

標識接口是沒有任何方法和屬性的接口.它僅僅表明它的類屬於一個特定的類型,供其他代碼來測試允許做一些事情. 標識接口作用:簡單形象的說就是給某個對象打個標(蓋個戳),使對象擁有某個或某些特權。比如,你不能殺人,如果老習給你蓋個戳,你就可以

原创 java標記接口

標識接口是沒有任何方法和屬性的接口.它僅僅表明它的類屬於一個特定的類型,供其他代碼來測試允許做一些事情. 標識接口作用:簡單形象的說就是給某個對象打個標(蓋個戳),使對象擁有某個或某些特權。比如,你不能殺人,如果老習給你蓋個戳,你就可以