原创 大數據系統-圖數據分析

     圖數據分析技術流派:用於聯機事務圖的持久化技術(通常直接實時地從應用程序中訪問)。這類技術被稱爲圖數據庫,它們和“通常的”關係型數據庫世界中的聯機事務處理(Online Transactional Processing,OLTP

原创 大數據系統-Hive的3種數據存儲格式

    關係數據庫裏有表(table),分區,hive裏也有這些東西,這些東西在hive技術裏稱爲hive的數據模型。今天本文介紹hive的數據類型,數據模型以及文件存儲格式。這些知識大家可以類比關係數據庫的相關知識。  首先我要講講hi

原创 大數據系統-Spark生態系統

目前,Spark已經發展成爲包含衆多子項目的大數據計算平臺。BDAS是伯克利大學提出的基於Spark的數據分析棧(BDAS)。其核心框架是Spark,同時涵蓋支持結構化數據SQL查詢與分析的查詢引擎Spark SQL,提供機器學習功能的系

原创 機器學習-損失函數

1似然函數(參數取值可能性最大)em算法中,估計參數的可能性大小2誤差平方和(表徵整體誤差最小)線性迴歸的最小二乘法中,參數估計3準確率(返回結果的正確率,佔的比例),召回率(返回正確結果的數量大小)查詢返回的正確信息中4置信度(規則的在

原创 工程實踐-Java內存泄漏的定位與分析

 1、爲什麼會發生內存泄漏java 如何檢測內在泄漏呢?我們需要一些工具進行檢測,並發現內存泄漏問題,不然很容易發生down機問題。編寫java程序最爲方便的地方就是我們不需要管理內存的分配和釋放,一切由jvm來進行處理,當java對象不

原创 機器學習-Spark MLlib

    MLlib是一些常用的機器學習算法和庫在Spark平臺上的實現。MLlib是AMPLab的在研機器學習項目MLBase的底層組件。MLBase是一個機器學習平臺,MLI是一個接口層,提供很多結構,MLlib是底層算法實現層。   

原创 同步互斥發展歷史算法

1、單標誌法:P0進程: P1進程:while(turn != 0); while(turn != 1);critical section criti

原创 大數據系統-SparkSQL基於內存的大數據分析引擎

[1]參考文章:高彥傑,陳冠誠 Spark SQL : 基於內存的大數據分析引擎《程序員》2014 . 8AMPLab將大數據分析負載分爲三大類型:批量數據處理、交互式查詢、實時流處理。而其中很重要的一環便是交互式查詢。大數據分析棧中需要

原创 數據庫

總結1 數據(範式),索引,元數據(詞典)2完整性約束(一致性問題,有冗餘數據引起)3查詢(優化),增刪改4 性能(並行,分佈,流水--引起同步和互斥問題),安全性(又有意或無意的異常操作引起),可靠性(故障引起,恢復處理)

原创 大數據系統-流計算Spark Streaming

    Spark Streaming是構建在Spark上的實時計算框架,擴展了Spark流式大數據處理能力。Spark Streaming將數據流以時間片爲單位進行分割形成RDD,使用RDD操作處理每一塊數據,每塊數據(也就是RDD)都

原创 大數據系統-系統優化與算法優化方向

    大數據系統面臨的問題一般是有以下幾個問題造成的:    數據分佈變化產生新的挑戰。    計算環境爲分佈式集羣。    針對系統執行過程中的作業,參考開源系統與研究論文可以看到大家比較關注的一些優化方向:1. 存儲層:列存儲和文件

原创 大數據系統-圖數據查詢與存儲

    圖數據管理即需要上層查詢API的支持,也需要底層數據存儲的支撐。圖數據庫查詢語言Gremlin (Thinker pop, Titan)Cypher (Neo4j)SQL  … 圖查詢Gremlin實例:圖數據存儲在處理圖數據時,

原创 機器學習-相似度計算

    在很多機器學習算法和任務中,經常需要度量兩個樣本或向量之間的距離或相似度,下面列出一些常見的度量方式及其應用:1.常見的距離算法    1.1歐幾里得距離(Euclidean Distance)基本上就是兩個點的空間距離,下面這個

原创 Nosql與Sql矛盾的兩個方向

1nosql以犧牲完整性約束來換取高可擴展性。2nosql本質爲將sql中所有的表連接成一個表,這樣產生了大量的null值小格,然後將所有相同類型的列合併成列族,然後將每個列族拆分成一個表,這樣進而消除了null值小格3本質兩個是一個不同

原创 筆試面試-白板寫算法的思路

    在準備算法題的過程中,除了基本的典型的解決方法之外,也可以發現一些通用的思考點和解決方法。這樣對一般較爲通用的問題,能較快的給出一個不太完美的方案或者漸進的逐步進行優化。1. 約束的轉換:時間複雜度和空間複雜度往往可以通過5中的額