台部落qq_33160722

測試發現，即使只有1條記錄，使用 spark進行一次SQL查詢也會耗時1秒，對很多即席查詢來說1秒的等待，用戶體驗會非常不友好特別是使用延雲YDB，1秒與毫秒有本質的區別，有些用戶會覺得200毫秒與1秒的這種差異根本是不可接受的。針

2020-07-05 15:08:07

YDB介紹什麼是延雲YDB 基於spark排序的一種更廉價的實現方案-附基於spark的性能測試在Spark中通過YDB實現比原生Spark性能高100倍的多表關聯大索引技術大數據的未來 YDB的歷史 2017chinahadoop

2020-07-05 15:08:07

排序可以說是很多日誌系統的硬指標（如按照時間逆序排序），如果一個大數據系統不能進行排序，基本上是這個系統屬於不可用狀態，排序算得上是大數據系統的一個“剛需”,無論大數據採用的是hadoop,還是spark，還是impala,hive，總之

2020-07-05 15:08:07

延雲行業搜索數據庫在大數據生態中位置和重要性大數據的挑戰隨着大數據在各行業的應用，互聯網及物聯網技術的迅猛發展，數據正在大量產生、被存儲並被快速的利用，很多行業的每天的數據增量就達到了千億級，總量則超過了數萬億。比如，在公共安全行業

2020-07-05 15:08:07

自2012年以來，公安部交通管理局在全國範圍內推廣了機動車緝查布控系統（簡稱卡口系統），通過整合共享各地車輛智能監測記錄等信息資源，建立了橫向聯網、縱向貫通的全國機動車緝查布控系統，實現了大範圍車輛緝查布控和預警攔截、車輛軌跡、交通流量

2020-07-05 15:08:07

正式部署前請詳細閱讀基礎環境這三篇，非常重要！！！硬件環境詳解操作系統環境詳解軟件環境詳解一、安裝前的準備請參考第三章的基本環境注意事項，準備基礎環境，這個很重要二、軟件下載 1.請從HDP官方下載 HDP與HDP-UTI

2020-07-05 15:08:07

一、硬件環境硬件如何搭配，能做到比較高的性價比，不存在短板。合理的硬件搭配，對系統的穩定性也很關鍵。 1.CPU不是核數越高越好，性價比纔是關鍵。經常遇到很多的企業級客戶，他們機器配置非常高，CPU有128 VCor

2020-07-05 15:08:07

多表關聯Join在Spark數據分析中是一個不可或缺的一部，我們以商品交易記錄表（trade表）與用戶信息表爲例（user表）來闡述下如何實現高性能的多表關聯分析。經常會遇到這種情形，我們需要先找出【某一個省份】【工商銀行】【交易金額在

2020-07-05 15:08:07

邏輯卷的問題一般很多linux的默認安裝，會將磁盤直接以邏輯卷的方式掛載，邏輯卷的優點是後期的擴容以及調整磁盤非常的方便，看着比raid好用多了，但是默認的邏輯卷配置方式是隻有一塊盤在工作，其他幾塊盤都閒着，發揮不出來多

2020-07-05 15:08:07

關於spark的性能，基於YDB的對比，做了一個測試，保留備用。一、YDB與spark sql在排序上的性能對比測試在排序上，YDB具有絕對優勢，無論是全表，還是基於任意條件組合過濾，基本秒殺spark任何格式。測試

2020-07-05 15:08:07

YDB全稱延雲YDB，是一個基於Hadoop分佈式架構下的實時的、多維的、交互式的查詢、統計、分析引擎，具有萬億數據規模下的秒級性能表現，並具備企業級的穩定可靠表現。 YDB是一個細粒度的索引，精確粒度的索引。數據即時導入，

2020-07-05 15:08:07

最近爲了測試延雲YDB在高併發請求和持續性請求情況下的表現，發現了spark的不少關於內存泄露的問題，這些問題均在延雲YDB提供的SPARK版本中得以修正，現將問題總結如下。 1. 高併發情況下的內存泄露很遺憾，sp

2020-02-22 08:09:04

YDB依賴環境準備一、硬件環境硬件如何搭配，能做到比較高的性價比，不存在短板。合理的硬件搭配，對系統的穩定性也很關鍵。 1.CPU不是核數越高越好，性價比纔是關鍵。經常遇到很多的企業級客戶，他們機器配置非常高，CPU

2020-02-22 08:09:04

第七章YDB基本使用詳解一、如何與YDB對接（交互）目前延雲YDB提供如下幾種方式 l命令行的方式 lWeb http接口的

2020-02-22 08:09:04

按照時間逆序排序可以說是很多日誌系統的硬指標。在延雲YDB系統中，我們改變了傳統的暴力排序方式，通過索引技術，可以超快對數據進行單列排序，不需要全表暴力掃描，這個技術我們稱之爲blockSort，目前支持tlong,tdo

2020-02-22 08:09:04