原创 HASH 與 隨機數

本文主要介紹一下hash與多值hash,然後在討論一下支撐hash的僞隨機數生成器。不感興趣者可以走了…… 一:hash 與 多值hash: 野史 第一次見到hash,是在算法導論裏看到的,其中的桶排序就是使用了此類思想,當然也有專門介

原创 中文分詞之姓名標註

前言: 談到中文分詞,前些年我可能感覺有點可望而不可即,不過現在倒是有這個自信和大家吹吹水了。不久前根據自己已有的原材料寫了一個分詞並標註姓名的小程序,因爲和ictclas有些不同,故此分享出來。ictclas被研究的很多了,我沒有去看源

原创 正則匹配問題(power8競賽敏感詞過濾)

這個賽事我是寫了一個,python單線程60秒左右,雖然不知道別人3秒是怎麼做的,但是論複雜度,這的方法已經是線性時間複雜度了,所以這裏寫個分享,供大家指正。 線性複雜度:這裏所說的線性複雜度指的是,只與需要匹配的文本線性相關,而與敏感詞

原创 數據挖掘的若干問題

最近幾年大數據被炒得很火,而數據分析也逐漸吃香。由於不下心在這個行業呆過兩年,把自己的丁點兒想法寫下來,供大家指正交流。 大數據VS小數據(引子):數據分析並不是互聯網出現之後纔有的,早期的天文學家開普勒、哥白尼之所以提出日心說,都是基於

原创 電子圈存的祕密——去中心化的一個例子

之前聽說有一種消費叫插卡消費,也即閃付;總感覺挺雞肋的,因爲我們明明可以刷卡。最近突然想明白了,分享之。 插卡消費與刷卡消費的過程對比: 刷卡消費:刷卡後刷卡機讀取卡片的身份信息,與交易詳情、用戶密碼等一起發送給數據中心,數據中心確認密

原创 小樣本分析

近期無事,只好思考一下人生,打發一下時間。誰叫工作的最大用處就是不讓自己無聊呢? 問題提出:經常有人說當樣本到10萬級別時就和全集統計結果基本一樣了云云。鄙人愚鈍,想問:第一這是怎麼證明的,“基本一樣”隱含的不是嚴格意義上的一樣又意味着

原创 程序員之傷——一個加法題

最近兩次看到類似的東西。因此分享之: 1、http://student.csdn.net/mcs/question_detail/674 2、http://www.cnblogs.com/stublue/archive/2010/02

原创 社交網絡分析之網絡分解(小世界劃分)

略談社交網絡: 抽屜裏有本書《social networks analysis》,平時也沒翻,突然老闆說,搞一下社交網絡分析,於是就上了。一週下來寫個小結。由於在網絡中找關鍵點,已經被分析了很多(比如中心性、流中心性等,而且python有

原创 網絡安全略談——你的密碼是否安全?

最近一直都在學習網絡安全方面的知識,也使用wireshark抓了一些報文仔細觀察了一下。對於網絡安全有了更多的瞭解,於是便在這兒和大家分享一下。 當我們打開一個網頁,登陸的時候,或者cookie直接幫我們登陸的時候,我們的密碼或者密碼相關

原创 hash 與 隨機數(二)

由於之前寫了一個多值hash的部分,因此這裏上傳一個代碼。這個Python代碼實現了多值hash並且能夠處理碰撞。如果要追求效率,可以改寫爲其他語言,並且去掉其中處理碰撞的部分。 # -*- coding: utf-8 -*- # cre

原创 數學題:證明AB+AC>DB+DC(D爲三角形內一點)

http://blog.csdn.net/yxnk/article/details/2101242 在這篇博客看到一個問題: 證明:AB+AC>DB+DC(D爲三角形ABC的一個內點)。 由於他說 90%的人要花1個小時以上,我不得不發起

原创 誤差的時空域轉化

前言:這是問題的原型是由看迅雷視頻引發的。假如下載了一半的1020p的高清電影,爲什麼就不能把它當做一個完整的510p的非高清電影來看呢?下面就是基於這問題,給出一個你能讓下載了1020p的高清當成完整的510p的非高清來看的方案。 問題

原创 協同過濾中顯性反饋 與 隱性反饋 的區別(附ALS最優化)

協同過濾中顯性反饋 與 隱性反饋 的區別 1. 特質上的區別 顯性反饋行爲:用戶明確表示對物品喜好的行爲。 隱性反饋行爲:不能明確反映用戶喜好的行爲。 隱性反饋的特性 沒有負反饋。隱性反饋無法判斷是否不喜歡。而顯性反饋,明顯能區分是喜

原创 提問的禮儀

1. 谷歌、百度 前三頁 大多數的技術問題都能在百度、谷歌、官方文檔、博客 找到答案,如果中文找不到答案可以試試英文。 2. 提供上下文 在Google Code社區提問的時候,會自動生成一個模板: What steps will

原创 證明:貝葉斯多條件的獨立化的基礎理論

花絮:         非常喜歡《天才J》這部小劇,裏面有個的偶然公式,包含3個要素:時間、空間、守恆。這個公式最後被J破解掉了,破解的思路卻很有意思:當觀察一個個體的時候偶然性是必然的,但是觀察一個大的羣體時,偶然性又會消失。這個劇的作