原创 分佈式編程模式MapReduce應用

  Hadoop 是Google MapReduce的一個Java實現。MapReduce是一種簡化的分佈式編程模式,讓程序自動分佈到一個由普通機器組成的超大集羣上併發執行。就如同java程序員可以不考慮內存泄露一樣, MapReduc

原创 最老程序員創業札記:全文檢索、數據挖掘、推薦引擎應用2

吳言的直接上司張宏宇比他小10歲,是一個北大畢業的碩士,頭腦相當靈活,辦事效率非常高,常常別人還不明白是怎麼回事的時侯他就恍然大悟了。他的頭銜是研發總監,實際上就是研發部門經理,手下有20幾個人,他還有一個漂亮的女朋友,靚照就放在筆記本

原创 Cassandra、MongoDB、CouchDB、Redis、Riak、HBase比較

本文有標題黨之嫌。在NoSQL如日中天的今天,各種NoSQL產品可謂百花齊放,但每一個產品都有自己的特點,有長處也有不適合的場景。本文對Cassandra, Mongodb, CouchDB, Redis, Riak 以及 HBase

原创 最老程序員創業札記:全文檢索、數據挖掘、推薦引擎應用4

王總的部門會 原定九點鐘的部門會,由於王總在路上堵車,到九點半才正式開始。會議像往常一樣由王總主持,首先是研發總監張宏宇做工作總結。 張宏宇站了起來,用充滿自信的語氣講起來:“各位同事,大家好!首先感謝各位同事的Hard Work,我經

原创 全文檢索、數據挖掘、推薦引擎技術架構

在後web2.0時代,簡單的允許用戶產生內容,連接用戶組成社交網絡,滿足用戶個性化需求,已經變成各個網站的標配,不可能成爲網站的特色和競爭優勢了。然而,隨着用戶產生內容的增多,用戶與系統交互手段的豐富,用戶可供選擇的選項的增多,用戶迫切

原创 最老程序員創業札記:全文檢索、數據挖掘、推薦引擎應用5

創業交流會 吳言的公司在上這邊,可是這場創業交流會卻在Soho現代城,如果想去參加,需要從北京城的西北到東南去,如果下班肯定趕不及,所以吳言找個機會,早出來了兩個小時,冒着盛夏的配熱,從地錢13號線然後10號線再一號線,幾經輾轉終於到傳

原创 當前幾個主要的Lucene中文分詞器的比較

1. 基本介紹: paoding :Lucene中文分詞“庖丁解牛” Paoding Analysisimdict :imdict智能詞典所採用的智能中文分詞程序mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 

原创 全文檢索、數據挖掘、推薦引擎系列3---全文內容推薦引擎之中文分詞

基於內容的推薦引擎有兩種實現途徑,一種是根據條目的元數據(可以將元數據理解爲屬性),另一種是根據條目的文本描述信息。本系列中將先描述基於條目描述信息的全文檢索實現方式,然後描述基於元數據的內容推薦引擎實現方式。 對於基於條目文本描述信息

原创 最老程序員創業札記:全文檢索、數據挖掘、推薦引擎應用3

通向管理之路 吳言今天又起了個大早,來到寫字樓的大廳時還不到八點,平時擁擠的電梯間現在還空無一人,吳言過去按下了上樓的按鈕。 “嗨!老吳,早呀!” 吳言回頭一看,原來是行政部的程靜,是個特別活潑開朗的外向型小姑娘,在研發部裏很有人緣。 “

原创 十七道海量數據處理面試題與Bit-map詳解

七道海量數據處理面試題與Bit-map詳解 作者:小橋流水,redfox66,July。 文章性質:整理。 前言     本博客內曾經整理過有關海量數據處理的10道面試題(十道海量數據處理面試題與十個方法大總結),此

原创 最老程序員創業札記:全文檢索、數據挖掘、推薦引擎應用8

創業餐廳 正在吳言爲能有機會和VC面談這一問題一愁莫展的時候,事情突然有了轉機,吳言聽人說,中關村這邊有家創業餐廳,創業者不僅可以在裏面辦公,還可以在那裏很方便的見到著名投資人,而且那裏的投資人都對早期項目感興趣,並且這個地方剛辦幾個月

原创 幾種常見的基於Lucene的開源搜索解決方案對比

一  直接使用 Lucene  ( http://lucene.apache.org ) 說明:Lucene 是一個 JAVA 搜索類庫,它本身並不是一個完整的解決方案,需要額外的開發工作優點:成熟的解決方案,有很多的成功案例。apac

原创 最老程序員創業札記:全文檢索、數據挖掘、推薦引擎應用1

序言 別笑,我可以以我的名義起誓,這是一本全文檢索、數據挖掘、推薦引擎在社會化電子商務中應用的專著。當前這三方面的專著很多,但是大多是講理論基礎和實現細節的,還沒有發現把這些技術真正用到實際項目中例子,因此我們還是不很清楚應該在什麼地方

原创 最老程序員創業札記:全文檢索、數據挖掘、推薦引擎應用9

辭職創業 吳言在經過了幾天的反覆思考,終於下定決心辭職創業了。做出這個決定真的需要很大的勇氣,因爲自己的年紀做爲程序員來說,已經屬於很高齡了,如果創業失敗幾乎沒有退路,再找工作將很難,合適的工作幾乎是不可能的。但是如果一輩子就這麼重複着當

原创 全文檢索、數據挖掘、推薦引擎系列2---異步服務實現

正向前一篇分析的,在全文檢索、數據挖掘、推薦引擎的後臺系統中,通常可以提供三種類型的服務:同步服務、異步服務、後臺服務。對於同步服務可以採用Web Service、XML Over HTTP或Restful服務,我在項目中就採用了Jas