原创 小改Spark sql,提升spark響應時間

測試發現,即使只有1條記錄,使用 spark進行一次SQL查詢也會耗時1秒,對很多即席查詢來說1秒的等待,用戶體驗會非常不友好 特別是使用延雲YDB,1秒與毫秒有本質的區別,有些用戶會覺得200毫秒與1秒的這種差異根本是不可接受的。 針

原创 20170405YDB資源彙總

YDB介紹 什麼是延雲YDB 基於spark排序的一種更廉價的實現方案-附基於spark的性能測試 在Spark中通過YDB實現比原生Spark性能高100倍的多表關聯 大索引技術大數據的未來 YDB的歷史 2017chinahadoop

原创 超越spark性能300倍的性能測試

排序可以說是很多日誌系統的硬指標(如按照時間逆序排序),如果一個大數據系統不能進行排序,基本上是這個系統屬於不可用狀態,排序算得上是大數據系統的一個“剛需”,無論大數據採用的是hadoop,還是spark,還是impala,hive,總之

原创 延雲行業搜索數據庫 在大數據生態中位置和重要性

延雲行業搜索數據庫 在大數據生態中位置和重要性 大數據的挑戰 隨着大數據在各行業的應用,互聯網及物聯網技術的迅猛發展,數據正在大量產生、被存儲並被快速的利用,很多行業的每天的數據增量就達到了千億級,總量則超過了數萬億。比如,在公共安全行業

原创 基於spark的車輛分析

自2012年以來,公安部交通管理局在全國範圍內推廣了機動車緝查布控系統(簡稱卡口系統),通過整合共享各地車輛智能監測記錄等信息資源,建立了橫向聯網、縱向貫通的全國機動車緝查布控系統,實現了大範圍車輛緝查布控和預警攔截、車輛軌跡、交通流量

原创 生產環境上的HADOOP安裝部署注意事項(HDP版)

正式部署前請詳細閱讀基礎環境這三篇,非常重要!!! 硬件環境詳解 操作系統環境詳解 軟件環境詳解 一、安裝前的準備 請參考第三章的基本環境注意事項,準備基礎環境,這個很重要 二、軟件下載 1.請從HDP官方下載 HDP與HDP-UTI

原创 生產系統搭建spark,基礎環境注意事項

一、硬件環境 硬件如何搭配,能做到比較高的性價比,不存在短板。合理的硬件搭配,對系統的穩定性也很關鍵。 1.CPU不是核數越高越好,性價比纔是關鍵。       經常遇到很多的企業級客戶,他們機器配置非常高,CPU有128 VCor

原创 Spark性能優化之通過YDB實現比原生Spark性能高100倍的多表關聯

多表關聯Join在Spark數據分析中是一個不可或缺的一部,我們以商品交易記錄表(trade表)與用戶信息表爲例(user表)來闡述下如何實現高性能的多表關聯分析。 經常會遇到這種情形,我們需要先找出【某一個省份】【工商銀行】【交易金額在

原创 大數據系統-在硬盤上需要注意的事情

邏輯卷的問題        一般很多linux的默認安裝,會將磁盤直接以邏輯卷的方式掛載,邏輯卷的優點是後期的擴容以及調整磁盤非常的方便,看着比raid好用多了,但是默認的邏輯卷配置方式是隻有一塊盤在工作 ,其他幾塊盤都閒着,發揮不出來多

原创 基於spark SQL之上的檢索與排序對比性能測試

關於spark的性能,基於YDB的對比,做了一個測試,保留備用。 一、YDB與spark sql在排序上的性能對比測試 在排序上,YDB具有絕對優勢,無論是全表,還是基於任意條件組合過濾,基本秒殺spark任何格式。   測試

原创 延雲YDB基於spark進行數據分析的一種新方式

 YDB全稱延雲YDB,是一個基於Hadoop分佈式架構下的實時的、多維的、交互式的查詢、統計、分析引擎,具有萬億數據規模下的秒級性能表現,並具備企業級的穩定可靠表現。       YDB是一個細粒度的索引,精確粒度的索引。數據即時導入,

原创 最近在SPARK上定位的幾個內存泄露問題總結

       最近爲了測試延雲YDB在高併發請求和持續性請求情況下的表現,發現了spark的不少關於內存泄露的問題,這些問題均在延雲YDB提供的SPARK版本中得以修正,現將問題總結如下。 1.    高併發情況下的內存泄露 很遺憾,sp

原创 基於原版Hadoop的YDB部署

YDB依賴環境準備 一、硬件環境 硬件如何搭配,能做到比較高的性價比,不存在短板。合理的硬件搭配,對系統的穩定性也很關鍵。 1.CPU不是核數越高越好,性價比纔是關鍵。       經常遇到很多的企業級客戶,他們機器配置非常高,CPU

原创 YDB基本使用詳解

  第七章YDB基本使用詳解 一、如何與YDB對接(交互) 目前延雲YDB提供如下幾種方式 l命令行的方式 lWeb http接口的

原创 YDB與spark SQL在百億級數據上的性能對比測試

        按照時間逆序排序可以說是很多日誌系統的硬指標。在延雲YDB系統中,我們改變了傳統的暴力排序方式,通過索引技術,可以超快對數據進行單列排序,不需要全表暴力掃描,這個技術我們稱之爲blockSort,目前支持tlong,tdo