原创 brighthouse小結

1、面向即時查詢的分析級開源數據倉庫(An Analytic Data Warehouse for Ad-hoc Queries)      (1)列存儲、自動調諧(column-oriented data warehouse with

原创 優美圖

優美圖:頂點標號在{0,1,...,e}中互不相同;邊爲頂點標號之差,且爲{1,2,...,e}兩兩不同;形式化描述如:         存在單射g:V(G)->{0,1,...,e},使得映射g'(uv)=g(u)-g(v)是E(G)到

原创 MapReduce小結

1、MapReduce Provides:       -Automatic parallelization & distribution;       -Fault-tolerance;       -Status and monito

原创 Hadoop編程、分佈式文件系統結構與設計

ch1   Hadoop編程入門    Hadoop是Google MapReduce的一個Java實現。MapReduce是一種簡化的分佈式編程模式,讓程序自動分佈到一個由普通機器組成的超大集羣上併發執行。就如同java程序員可以不考

原创 林達華 Dahua Lin 對數學的新思考

在過去的一年中,我一直在數學的海洋中游蕩,research進展不多,對於數學世界的閱歷算是有了一些長進。 爲什麼要深入數學的世界作爲計算機的學生,我沒有任何企圖要成爲一個數學家。我學習數學的目的,是要想爬上巨人的肩膀,希望站在更高的高度,

原创 機器學習Learning中的代數結構的建立

Learning是一個融會多種數學於一體的領域。說起與此有關的數學學科,我們可能會迅速聯想到線性代數以及建立在向量空間基礎上的統計模型——事實上,主流的論文中確實在很大程度上基於它們。 R^n (n-維實向量空間) 是我們在pape

原创 關於大數據的八大熱點問題

1.數據科學與大數據的學科邊界 這一問題綜合了兩個問題,即大數據的基本內涵與數據的科學問題。前者關注的是大數據的基本定義和基本結構。迄今爲止,什麼是大數據,在產業界、學術界並沒有形成一個公認的科學定義,大數據的內涵與外延也缺乏清晰的

原创 大數據分析現有技術與問題

1、數據倉庫方法DW:     -數據移動過程(ETL)浪費資源、性能;     -隨着數據載入,應用越來越小,受制於數據源 2、數據雲:     -大量數據輸入,類型是堆,結構混亂,不可用;     -按來源,最近原則分發、使用;   

原创 網絡大數據

(1)網絡大數據共性問題        --對於非結構化數據的統一表示與分析,目前缺少有效地方法與工具       --數據密集型科學研究“第四範式“       --沒有建立一套完整的理論體系;       --缺少高效、快速的處理、

原创 Hilbert學習筆記

1、線性空間:設F是一個數域,X是一個非空集合,稱X是數域F上的線性空間,是指在X中定義了兩種運算(滿足封閉性,即運算結果仍然在集合X中):加法+(滿足交換律、結合律)和標量乘法(滿足結合律、分配律)。 2、羣:X按照加法+構成一個羣,

原创 大數據即時分析架構探討

1、大數據是數據庫的自然延伸?    -忘不掉ACID,捨不得Relation,忽視實際應用    -潛意識地奉行“一招鮮”(One Size Fits All,  OSFA)    -非結構化數據(二八原則)    -雲計算與大數據(雲

原创 MapReduce Algorithms for Big Data Analysis

1. MapReduce Algorithms for Big Data Analysis; A. Madaan, S. Kikuchi, and S. Bhalla (EDS.): DNIS 2013, LNCS 7813, PP.

原创 王金良發現的ESMD數據分析方法

1、“Extreme-PointSymmetric Mode Decomposition Method for Data Analysis”,lJin-LiangWang,     Zong-junLi ;Advances in Adap

原创 希爾伯特空間(Hilbert space)

1、其中勒貝格空間(X,M,u)是一個建立在域代數基礎上的,是測度理論的一個重要表達,通過對這種空間而生成的Hilbertspace,可以相對完美地詮釋異構數據集的可測量性; 2、勒貝格測度是賦予歐幾里得空間的子集的一個長度、面積或者體