原创 海量數據相似度計算之simhash短文本查找

轉自:http://www.lanceyan.com/tech/arch/simhash_hamming_distance_similarity2-html.html在前一篇文章 《海量數據相似度計算之simhash和海明距離》 介紹了si

原创 海量數據相似度計算之simhash和海明距離

轉自http://www.lanceyan.com/tech/arch/simhash_hamming_distance_similarity.html通過 採集系統 我們採集了大量文本數據,但是文本中有很多重複數據影響我們對於結果的分析。

原创 我的友情鏈接

51CTO博客開發

原创 Servlet和 Struts線程安全問題

1.線程安全的代碼在多線程環境下能正確執行的代碼是線程安全的,所謂安全指能正確執行。2.始終爲線程安全的、不需要同步的代碼:1)常量始終是線程安全的,因爲只存在讀操作2)對構造器的訪問(new操作)是線程安全的,因爲每次都新建一個實例,不會

原创 社會化海量數據採集爬蟲框架搭建

轉自:http://www.lanceyan.com/tech/arch/snscrawler.html隨着BIG DATA大數據概念逐漸升溫,如何搭建一個能夠採集海量數據的架構體系擺在大家眼前。如何能夠做到所見即所得的無阻攔式採集、如何快

原创 海量數據相似度計算之simhash和海明距離

轉自http://www.lanceyan.com/tech/arch/simhash_hamming_distance_similarity.html通過 採集系統 我們採集了大量文本數據,但是文本中有很多重複數據影響我們對於結果的分析。

原创 社會化海量數據採集爬蟲框架搭建

轉自:http://www.lanceyan.com/tech/arch/snscrawler.html隨着BIG DATA大數據概念逐漸升溫,如何搭建一個能夠採集海量數據的架構體系擺在大家眼前。如何能夠做到所見即所得的無阻攔式採集、如何快

原创 金融數據庫及金融產品整理

1.金融數據庫1.1.Resset DB爲模型檢驗、投資研究等提供專業服務的數據平臺。參考國際著名的數據庫CRPS和Compustat的設計標準,結合中國金融市場的實際情況,以實證研究爲導向整體設計。Resset DB主要供高校、金融研究機