原创 C2LSH沒有用多個hash table,是怎麼解決False Negative的?

LSH函數性質 在一個(r,cr,p1,p2) -sensitive LSH函數上,相距較近的點有更大的碰撞概率(且有概率下界p1 ),相距較遠的點有較小的碰撞概率(有概率上界p2 )。 這樣,通過一個LSH就能過濾掉很多相距較遠

原创 高速外存體系下的高維索引標準.思路列表

現有的外存體系是DDR內存+磁盤二級存儲結構。磁盤的優點是廉價,在存放大數據背景下的海量數據時擴充容量的代價容易承受。 但是,數據管理的其他操作就有些蛋疼了,很多基本的操作都發現無法避免一個瓶頸:內外存間的通信(Jeffrey S

原创 FNN:利用均值和方差構造歐式距離下界

在做NN算法的時候遇到了一個有意思的論文。通過向量自身的均值和方差構建的高維點間的距離下界。實現了快速的線性NN搜索。 文中發現的這一下界公式覺得很有意思,特來詳細介紹一下。 背景 高維向量間的歐式距離計算是十分昂貴的。在高維歐式

原创 基於kNN完善digit recognition(kaggle)精度(0.95-->1)[進行中]

背景 一直在搞高維數據檢索,研究成果沒出多少,愛鑽牛角尖。時間長了,發現連基本的解決問題的能力都沒有了。視野太狹窄,所以決定到kaggle上惡補一番。 Digit Recognition是一個最基本的手寫識別問題,是對數字[0-9

原创 Ubuntu 14.04 安裝搜狗輸入法 [banyun]

https://www.jianshu.com/p/6fcbac5d0890

原创 分層K-Means+Matlab計算向量間距離

Y=pdist(X); % 計算X內向量兩兩間距離 Y=squareform(Y); % 將距離整理成矩陣形式(對稱矩陣,且對角線爲0) Z=linkage(Y); % 分層聚類 dendrogr

原创 向量點積的另一種幾何含義

〇、背景:∥a⃗∥∥b⃗∥cos⁡θ\|\vec a\|\|\vec b\|\cos{\theta}∥a∥∥b∥cosθ的幾何含義是什麼 給定向量a⃗,b⃗\vec a, \vec ba,b,夾角是θ\thetaθ(如下圖),我們

原创 Yael for ubuntu 部署日誌 - [內含ssaupd_的問題,python部署]

做高維數據索引實驗,發現有個比較好的c/python/matlab庫,yael-鏈接地址 不過目前只支持linux和macOS。 特此將安裝過程記錄下來: 版本信息 yael_v438 ubuntu 14.04 或者 14.10

原创 閱讀列表:On the Surprising Behavior of Distance Metrics in High Dimensional Space

有一些結論,比較新穎,可用於指導:例如,在挖掘問題當中,高維空間中L1可能比L2更prefer。 fractional metrics分數度量可能更有用。 https://bib.dbvis.de/uploadedFiles/155.p

原创 多維向量空間中點到線的距離公式

標籤(空格分隔): 多維幾何 背景 在做多維向量索引,需要用到多維空間中的一些通用距離公式,在此羅列。目前含有點-線距離。 點-線距離 轉自stackexchange.com,原文 通過兩個點p⃗ 1,p⃗ 2 的直線可以表示

原创 C++二維數組排序段錯誤-之二元關係

需要寫一個對向量集進行字典序排序的代碼。 所謂字典序 [1 1 2] < [1 1 9] < [2 0 1] 使用vector<vector<float> >存儲數據,使用sort(vecs.begin(), vecs.end(),

原创 PDF文件字體嵌入

提交論文時,有些網站會提示沒有嵌入字體的錯誤。打開文件,“文件”->“屬性”->“字體”,往下來能看到一些沒嵌入的字體,如下圖: 核心解決思路: 打開pdf文件後,點擊文件->打印,選擇名稱到Adobe PDF->屬性->默認設置【標

原创 LaTeX論文寫作

通訊作者角標 \usepackage{bbding} \Envelope 或者 \usepackage[misc]{ifsym} \Letter http://blog.csdn.net/aresgod/article/details

原创 MultiCore

http://www.cs.otago.ac.nz/staffpriv/hzy/publications.php MultiCore的工作,由新西蘭Otago大學的Huang Zhiyi教授領導,鏈接。 先是在TOPD上發表1,然後在2

原创 matlab與C接口備忘錄

matlab中的數據類型 下圖彙總了matlab的各種數據類型,通常使用mxCreateNumericMatrix()來創建數據,如果不知道形如mxINT32_CLASS的名字,可以用mxClassIDFromClasName('int3