原创 數學之美系列十:有限狀態機和地址識別

地址的識別和分析是本地搜索必不可少的技術,儘管有許多識別和分析地址的方法,最有效的是有限狀態機。 一個有限狀態機是一個特殊的有向圖(參見有關圖論的系列),它包括一些狀態(節點)和連接這些狀態的有向弧。下圖是一個識別中國地址的有限狀態機的簡

原创 【鏈接分享】第一期:科學太瘋狂——在另一個星球上打印人類

科學好瘋狂 Here's the Plan to Eavesdrop on Aliens' Interplanetary Communications :計劃偷聽到外星人的星際通信Our Best Bet for Colonizing S

原创 c++中的類型轉換(dynamic_cast, reinterpret_cast, static_cast ,const_cast)

在c++中提供瞭如下方式的類型轉換: dynamic_cast <new_type> (expression) reinterpret_cast <new_type> (expression) static_cast <new_type>

原创 數學之美系列十一:Google 阿卡 47 的製造者阿米特.辛格博士

槍迷或者看過尼古拉斯.凱奇(Nicolas Cage)主演的電影“戰爭之王”(Lord of War)的人也許還記得影片開頭的一段話:(在所有輕武器中,)最有名的是阿卡 47( AK47)衝鋒槍(也就是中國的五六式衝鋒槍的原型),因爲它從

原创 非編程天才參與開源項目的14種方式

如果你想參與到開源項目中去,卻又不知道從何入手,這裏提供一些參考方法或許能給你提供一些幫助,哪怕你對你目前的技術還缺乏自信都不要緊。 開源軟件已經改變了IT,甚至整個世界,正是因爲有了你們,樂於奉獻在開源事業中。不幸的是,很多人把參與到開

原创 數學之美系列二:談談中文分詞

上回我們談到利用統計語言模型進行語言處理,由於模型是建立在詞的基礎上的,對於中日韓等語言,首先需要進行分詞。例如把句子 “中國航天官員應邀到美國與太空總署官員開會。” 分成一串詞: 中國 / 航天 / 官員 / 應邀 / 到 / 美國

原创 數學之美系列五:布爾代數和搜索引擎的索引

[建立一個搜索引擎大致需要做這樣幾件事:自動下載儘可能多的網頁;建立快速有效的索引;根據相關性對網頁進行公平準確的排序。我們在介紹google page rank(網頁排名) 時已經談到了一些排序的問題,這裏我們談談索引問題,以後我們還會

原创 linux下查看系統資源和負載,以及性能監控

1,查看磁盤 df -h 2,查看內存大小 free free [-m|g]按MB,GB顯示內存 vmstat 3,查看cpu cat /proc/cpuinfo 只看cpu數量grep "model name" /proc/cpuinf

原创 數學之美系列一:統計語言模型

前言 也許大家不相信,數學是解決信息檢索和自然語言處理的最好工具。它能非常清晰地描述這些領域的實際問題並且給出漂亮的解決辦法。每當人們應用數學工具解決一個語言問題時,總會感嘆數學之美。我們希望利用 Google 中文黑板報這塊園地,介紹一

原创 數學之美系列八:賈里尼克的故事和現代語言處理

讀者也許注意到了,我們在前面的系列中多次提到了賈里尼克這個名字。事實上,現代語音識別和自然語言處理確實是和它的名字是緊密聯繫在一起的。我想在這回的系列裏,介紹賈里尼克本人。在這裏我不想列舉他的貢獻,而想講一講他作爲一個普普通通的人的故事。

原创 C++運算符優先級表格

C++運算符優先級表格: http://www.cppreference.com/operator_precedence.htmlPrecedence Operator Description Example Associativity

原创 數學之美系列十二:餘弦定理和新聞的分類

餘弦定理和新聞的分類似乎是兩件八杆子打不着的事,但是它們確有緊密的聯繫。具體說,新聞的分類很大程度上依靠餘弦定理。 Google 的新聞是自動分類和整理的。所謂新聞的分類無非是要把相似的新聞放到一類中。計算機其實讀不懂新聞,它只能快速計算

原创 Wget使用技巧

wget 是一個命令行的下載工具。對於我們這些 Linux 用戶來說,幾乎每天都在使用它。下面爲大家介紹幾個有用的 wget 小技巧,可以讓你更加高效而靈活的使用 wget。 $ wget -r -np -nd http://www.ku

原创 數學之美系列九:如何確定網頁和查詢的相關性

我們已經談過了如何自動下載網頁、如何建立索引、如何衡量網頁的質量(Page Rank)。我們今天談談如何確定一個網頁和某個查詢的相關性。瞭解了這四

原创 算法導論主定理——算法複雜度分析的利器

設a>=1,b>1爲常數,設f(n)爲一函數,T(n)的遞歸式: T(n)=aT(n/b)+f(n) 其中n/b指n/b的上取整或者是下取整。 那麼T(n)可能有如下的漸進界: 1)e>0,有f(n)=O(n^(log_b(a)-e)),