原创 HDF5-簡介

HDF(Hierarchical Data Format)是一種設計用於存儲和組織大量數據的文件格式,最開始由美國國家超算中心研發,後來由一個非盈利組織HDF Group支持.HDF支持多種商業及非商業的軟件平臺,包括MATLAB

原创 初遇分佈式系統(一)

簡述 前期博文主要是針對一些分佈式系統資料的學習筆記. 《Distributed systems theory for the distributed systems engineer》中提到的《好玩又實在的分佈式系統理論》是一本

原创 參數服務器——分佈式機器學習的新殺器

轉自:微信公衆號 數據極客 在大規模數據上跑機器學習任務是過去十多年內系統架構師面臨的主要挑戰之一,許多模型和抽象先後用於這一任務。從早期的MPI,到後來的Hadoop,乃至於目前使用較多的Spark,都曾被廣泛應用於大規模機器

原创 自然語言處理——語義向量

將文本的符號表示轉換爲語義空間中的向量表示是現在量化比較語義的通用做法,這類方法通常都基於Harris的分佈式假設,即在相似上下文中的詞通常都有着相似的語義. 下面首先會對已有的一些文本語義表示模型進行介紹. 表示形式 Term

原创 推薦系統簡介

推薦系統評估 準確度 打分系統 設ruirui 爲用戶uu 對物品ii 的實際評分,r^uir^ui 爲預測分,有如下誤差判定標準: RMSEMAE=∑u,i∈T(rui−r^ui)2|T|−−−−−−−−−−−−−−−√=

原创 異常值檢測

爲什麼 在數據集中,異常值(Outlier or Anomaly)作爲不尋常的表徵點,無利於後面算法對於數據集中模式的挖掘,甚至會極大地影響性能,或者直接用於一些異常檢測的場景,如欺詐檢測、安全檢測等.異常值檢測是數據清洗裏非常重

原创 圖數據庫——Neo4j(二)Cypher

Cypher是Neo4j專門用於圖數據庫的查詢語言,類似於Oracle數據庫的SQL語言,是一種聲明式查詢語言,只需要用戶描述需要執行什麼動作(match、insert等),而不需要描述具體怎麼做,需要注意的是,只有在商業版中,C

原创 複雜事件處理(Complex Event Processing)

複雜事件處理 複雜事件處理(CEP,Complex Event Processing)是一種基於動態環境中事件流的分析技術,事件在這裏通常是有意義的狀態變化,通過分析事件間的關係,利用過濾、關聯、聚合等技術,根據事件間的時序關係和

原创 特徵工程

特徵工程是一個任務驅動的經驗性處理過程 數據與特徵處理 特徵表達 數值型 類別型 時間型 文本型 統計型 組合特徵 數據的表示應當轉換爲更理想的格式 數值型 幅度調整/歸一化 Log等變化 統計值max,min,mean,

原创 Zipfian分佈

最近在看Multi-View Learning of Word Embeddings via CCA這篇文章時,裏面提到了一個陌生的概率分佈模型. Zipfian distribution 一個離散冪律概率分佈,也就是常常提到的長

原创 知識圖譜(二)——知識推理

知識推理是知識圖譜中很重要的一部分,主要用於推理暗含的知識(豐富知識圖譜),檢查知識庫的不一致(知識清洗) 知識推理分類 演繹推理 從一般到特殊的過程.從一般性的前提出發,通過推導,得到具體描述或個別結論(三段論),結論已經蘊含一

原创 典型相關性學習

典型相關性分析(Canonical Correlation Analysis,CCA)的核心思想是:尋找兩個變量場X ,Y 對應的兩組基向量Wx ,WY ,使得X ,Y 在Wx ,WY 上投影后的結果最大程度地保持X ,Y 之間的

原创 自然語言處理——注意力機制

本作品採用知識共享署名-非商業性使用-相同方式共享 3.0 中國大陸許可協議進行許可。

原创 圖數據庫——Neo4j(一)內部結構特點

本篇主要分析介紹Neo4j的內部結構特點. Neo4j主要通過構成圖來存儲數據,圖中的數據包括節點、關係以及節點的屬性和關係的屬性,關係可以是雙向的,也可以是隻有單向的. 以下是它的一些特點 支持完整的ACID(原子性、一致性、

原创 知識圖譜(一)——知識表示

知識表示框架 量化表示(嵌入表示) 本作品採用知識共享署名-非商業性使用-相同方式共享 3.0 中國大陸許可協議進行許可。