原创 關於被3個搞物理的“顛覆”了且數學天才陶哲軒“開始壓根不相信”的數學常識的算法實現與理解

        近日,網上公佈了一篇關於根據子矩陣的特徵值求得平方賦範特徵向量的一篇文章“Eigenvectors from Eigenvalues”[1]。據網上推文描述,該文章是三位物理學家Peter Denton、Stephen P

原创 如何瓜分會縮水的蛋糕?

       設現在有一塊蛋糕,其面積爲一個單位。博弈雙方A,B的規則如下:由A首先提出分蛋糕的方案,B選擇接受與否。如果B接受,博弈結束,否則,進入下一輪。下一輪A,B交換操作,即B提方案,A選擇接受與否。不接受進入下一輪。以此類推,A

原创 MyJupyter,一款支持Python和Java的可移動Jupyter軟件包

       Jupyter是一個開源的、基於瀏覽器的強大工具。作爲一種虛擬編程語言實驗筆記本,它能夠研究過程中有效地支持工作流、代碼、數據和可視化等功能。它不僅是機器能夠識別並執行的而且具有良好的可讀性,這對於不同系統間的協同作業和學術

原创 基於距離積分的交通軌跡聚類算法

    爲了做好城市規劃和交通管理工作,對車輛運動軌跡的分析和研究是必不可少的一項工作。然而,現實中每時每刻都有成千上萬的車輛在城市中,短時間內的車輛軌跡採集即可形成大量數據。數據的極度龐大和錯綜複雜使得人們難以直接通過所採集的軌跡數據獲

原创 編程之美1.12 尼姆博弈拓展的分析與論證

向世界分享科學之美,讓科學流行起來               在書籍《編程之美》中,總共講述了三個關於取石子博弈的問題。書中對這三個博弈問題的本身都有詳細的解答。然而,看懂這些解答本身並不是一件難事。我們學知識呢,應該學會舉一反三,這樣

原创 差分隱私若干基本知識點介紹(二)

       在數週前所發表的博文《差分隱私若干基本知識點介紹(一)》中,介紹了差分隱私中最爲常見的拉普拉斯機制以及其與差分隱私之間的關係,並得到了一定的認可。因此,在前文的基礎上續寫本文,進一步介紹一些與差分隱私相關的基礎知識。主要包括

原创 信息增益(互信息)非負性證明

        信息增益又稱互信息,它是信息論的基本概念之一。同時,它在當今流行的人工智能領域也多有涉及。其中,著名的決策樹算法IC3就是以信息增益作爲貪心選擇的依據。         信息增益的定義如下:                

原创 大數據下的多維TopK算法

       在數週前所發表的博文《大數據下的TopK算法》中介紹了求解大數據時代中幾乎是最爲經典的TopK的過程。雖然大數據技術使得大規模數據下的TopK問題得到了有效的解決,但是對於一些該問題的拓展,單單靠大數據技術是無法獲得令人滿意

原创 編程之美1.13 威佐夫博奕拓展的分析與論證

       續接前文,本人博文《編程之美1.12 尼姆博弈拓展的分析與論證》論證了經典尼姆博弈的部分拓展問題。然而,尼姆博弈是此博弈問題拓展系列所要討論的問題之一。接下來,本文探討下一個博弈問題的拓展——威佐夫博奕。 威佐夫博奕    

原创 馬爾科夫的詞性分析三部曲

        在自然語言處理(NLP)領域,單詞除了其本身的含義可以用來傳遞信息外,單詞的詞性屬性也包含也包含了非常重要的信息。根據單詞的詞性,人們可以對文本的單詞進行過濾篩選,以篩選掉那些信息含量較少的單詞,從而提升處理的文本質量。而

原创 差分隱私若干基本知識點介紹(一)

                 爲解決當前信息越來越發達的社會所帶來的用戶隱私泄露問題,本人所研究的差分隱私模型是一種被廣泛認可的嚴格的隱私保護模型。它通過對數據添加干擾噪聲的方式保護所發佈數據中潛在的用戶隱私信息,從而達到即便攻擊者已

原创 譜範數的理解與論述

       對於任意兩點間來說,直線距離最短。而計算兩點間距離的公式就是源於衆所周知的勾股定理的基礎上推導而來的。事實上,不僅對於人們所熟知的二維空間和三維空間如此,對於高維空間亦是如此。在數學上,一般將高維空間的點表示爲一個多維向量,

原创 老闆/員工流式並行計算模型

        隨着大數據時代的到來,人們越來越頻繁地需要處理越來越大規模的數據。傳統的單線程處理模式已經遠遠不能滿足人們的需要,於是各種分佈式計算系統如雨後春筍般不斷涌現,其中包括了基於Map-Reduce並行計算的Spark,Hado

原创 基於樹狀數組的高效輪盤賭算法

       在許多經典的遺傳算法、蟻羣算法的實現過程中,常常需要根據每個對象的生存能力在進行優勝劣汰從而獲得儘可能最優的個體。該過程人們一般採用輪盤賭算法來實現。這是一種經典的隨機選擇算法,在網上只要搜索相關詞條就有不少關於該算法的實現

原创 數據庫管理工具V1.0

概述        在項目初始階段,數據庫搭建是一件非常重要的工作。然而,常見的數據庫管理工具往往都不太友好,自動化程度不夠高。對於公司的項目來說,一種較爲規範的做法是在每次建立一個數據庫表格之前,都需要寫明一個與該表格相對應的表格文檔用