原创 【轉載】開源OLAP引擎測評報告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)

開源OLAP引擎測評報告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum) 易觀CTO 郭煒 序 現在大數據組件非常多,衆說不一,在每個企業不同的使用場景裏究竟應該使用哪個引擎呢?

原创 無人駕駛失敗案例彙總

慌不慌?無人駕駛的命案都在這兒! 原創: 陳瀟慕 貝克街探案官  5天前   作者:陳瀟慕   11月21日,也就在昨天,美國國家運輸安全委員會(NTSB)公佈了去年發生的一起Uber致命車禍案件的調查結果。   這起廣爲人知並牽動了所

原创 【轉載】bigdata 框架、架構學習

導讀: 第一章:初識Hadoop第二章:更高效的WordCount第三章:把別處的數據搞到Hadoop上第四章:把Hadoop上的數據搞到別處去第五章:快一點吧,我的SQL第六章:一夫多妻制第七章:越來越多的分析任務第八章:我的

原创 SQL 分組取最新的一條數據的方法

SELECT biz_id AS leads_id ,gmt_create AS leads_complete_time FROM kbods.ods_kbleadscenter_biz_log AS b

原创 ZJTD bigdata team 暑期實習面試

1. 說一下Hadoop的架構 2. 爲什麼clickhouse比較快 3. 說一下TCP的握手過程,以及每次握手傳輸的內容 4. 說一下計算機網絡OSI七層協議 5. 什麼是虛擬內存 6. 如何用堆來實現排序 7. 能否用O(1) 的時

原创 【數據研發】sql - grouping的用法

 本文介紹的方法是爲配合cube一起使用 cube的使用方法    如果我們想統計各種顏色的買了多少,並且最後合計一共買了多少,用比較笨的方法可以這樣實現: Select Color,SUM(Quantity) AS Quantity

原创 AWS EC2 Ubuntu 16.04 VNC 遠程桌面 mac配置全過程教程

AWS EC2 Ubuntu 16.04 VNC 遠程桌面 mac配置全過程教程登陸EC2升級系統添加用戶安裝xfce4桌面與vnc serverConfigure TightVNCRunning TightVNC as a Se

原创 VM VirtualBox Centos 相關配置

系統版本: CentOS Linux release 7.6.1810 (Core)  附:Centos 下載鏡像地址 https://www.jianshu.com/p/a63f47e096e8 顯示配置 1. 下載帶桌面的鏡像: Ce

原创 pySpark API 使用過程中出現 “ImportError: No module named 'py4j'“錯誤

首先確認 ~/.bashrc 裏面有: export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.

原创 聚類方法之 HDBSCAN —— 層次DBSCAN 的原理分析

HDBSCAN HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)是由Campello,Moulavi和Sander開發的聚類

原创 ALI - 數據研發- 二面 python中正則化的使用

最近被問到了python中正則化的使用,以及如何寫出匹配表達式: 題目如下:   <div class="nam">中國</div>,用正則匹配出標籤裏面的內容(“中國”),其中class的類名是不確定的   答案: import re

原创 Deecamp 面試翻車記錄

挺過了阿里五面,美團四面,結果在Deecamp面試翻車了,特此記錄,收穫很大。 沒有編程,面試官是創新工場的算法工程師,人很不錯。 ROC曲線如何繪製 AUC的含義 梯度下降法和牛頓法的區別 如何防止過擬合,分別從機器學習還有深度學習兩方

原创 MS暑期實習面試記錄

二面被拒 Cloud + AI組,具體方向是信息安全工具開發 一面: 1)描述快速排序原理,並書寫快速排序的過程,同時講出什麼時候快速排序會觸發最差的時間複雜度 2)兩個字符串: A:"abcbdc" B: "bcd" 判斷B的全排列,是

原创 JAVA 掃盲隨記

1. 字符串轉int,並做了溢出處理 try{ value = Integer.parseInt(str.substring(m.start(), m.end())); }catch(Exception e){

原创 數據服務技術棧

1. 大數據數據庫 2. 實時計算 3. spring-boot + pandora-boot + 消息隊列 metaq + 定時調度 shedulerx + 分佈式請求 HSF + 緩存 Tair + 消息通知 Goc 4. React