原创 真的想?那就去做

因爲2015年原單位實習轉正時給的待遇不錯,加上組裏團隊氛圍非常融洽,我最小,老大哥們對我都很照顧(當然人際關係是相互的),一直很不捨這種生活。可是公司的圖像算法項目並沒有那麼多,也沒有那麼難,或者說挑戰不多;而當時決定留下一個重

原创 多個C3P0的java舉例

在使用mysql時,如果數據庫會被頻繁多人調用,有必要使用連接池來幫助協調,使用C3P0連接池時想要用多個數據庫時,需要分別定義ComboPooledDataSource的靜態對象。舉例如下: public class ConnO

原创 JVM內存GC機制

一些自己印象筆記收錄的資料,這裏先留存鏈接,等閒下來整理成文。 編程時注意的一些小技巧,配合GC,及早釋放無用對象佔有的內存,或者減少內存的使用,比如無用對象的置null,少用new對象,StringBuffer,容器大小給予一

原创 時間複雜度計算(二)

四、定義:如果一個問題的規模是n,解這一問題的某一算法所需要的時間爲T(n),它是n的某一函數 T(n)稱爲這一算法的“時間複雜性”。當輸入量n逐漸加大時,時間複雜性的極限情形稱爲算法的“漸近時間複雜性”。我們常用大O表示法表示時間複雜

原创 一些linux指令

將印象筆記以前用過紀錄的一些指令轉到博客。 mkdir rm touch vi a.txt mount –o remount,rw / 這個命令來讓我們的/路徑文件系統爲可讀模式 grep -A -B -C -c(coun

原创 文本特徵選擇算法:卡方檢驗和信息增益

轉載自:http://blog.sina.com.cn/s/blog_6622f5c30101datu.html 特徵提取步驟: 1. 卡方檢驗 1.1 統計樣本集中文檔總數(N)。 1.2 統計每個詞的正文檔出現頻率(

原创 支持向量機(SVM)基礎

轉自:http://leftnoteasy.cnblogs.com, 一、線性分類器: 首先給出一個非常非常簡單的分類問題(線性可分),我們要用一條直線,將下圖中黑色的點和白色的點分開,很顯然,圖上的這條直線就是我們要求的直線之

原创 Sqoop詳細介紹包括:sqoop命令,原理,流程

一簡介 Sqoop是一個用來將Hadoop和關係型數據庫中的數據相互轉移的工具,可以將一個關係型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進

原创 文本小票的一種無監督聚類方法

基於ostu的無監督文本聚類 對於區分不同店鋪的小票效果良好 同店鋪小票不同類別區分效果一般,但是對於離羣點定位(小樣本類別很精準),借鑑了TF/IDF的思想,還有詞處理時的去停詞,詞頻因素的考慮優化,分類的閾值計算爲每次基於相似

原创 SVM推導帖子收藏

SVM推導裏看過的不錯的兩個帖子,還有就是《機器學習實戰》中的SVM那一章的SMO的簡單實現的python代碼,學習SVM的可以看一看,比《統計學習》書裏的部分,細節要詳細些。也可以看看周志華老師的《機器學習》,svm那一章從ma

原创 數據挖掘相關資料收集(持續更新)

1.ChinaKDD,數據挖掘研究院,強烈推薦,裏面有很多很好的學習資料 http://www.chinakdd.com/article-oyU85v018dQL0Iu.html 2.機器學習好多優化的帖子 http://li

原创 程序時間複雜度計算(一)

最近休息的狀態,所以將以前工作時紀錄在“印象筆記”的較好的資料和以前自己的一些想法,逐步整理到博客裏吧。 一、概念 時間複雜度是總運算次數表達式中受n的變化影響最大的那一項(不含係數) 比如:一般總運算次數表達式類似於這樣:

原创 redis

以前工作中使用過redis,但是一般是存key,value,而value裏我們通常存一個Json,取出後再解析Json獲得相應的信息,還有一些在服務器上的redis查詢操作,用來檢查一些數據是否異常,當然也可以做成webservi

原创 LibSVM使用指南

本文包含以下幾個部分: 支持向量機–SVM簡介 LibSVM的安裝 LibSVM的使用 LibSVM參數調優 Java版LibSVM庫函數的調用 SVM簡介 在進行下面的內容時我們認爲你已經具備了數據挖掘的基礎知識。 S

原创 k-means 簡單實現

同學很久以前做的,那時候我剛實習,他剛參加工作(他是兩年制),那時候開始對數據挖掘感興趣,他發給我的他自己做的demo。記得他要畢業時,還一起幫着想kmeans創新點,如今他已經從事數據挖掘工作兩年了。 他的博客地址:http: