原创 Hive|如何避免數據傾斜

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"1. hive中桶的

原创 傳統BI如何轉大數據數倉

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

原创 暢想數據湖

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

原创 數據倉庫的前世今生

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

原创 淺談程序員的“內卷化”

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"一、什麼是內卷化"}

原创 如何從0到1搭建大數據平臺

大數據時代這個詞被提出已有10年了吧,越來越多的企業已經完成了大數據平臺的搭建。隨着移動互聯網和物聯網的爆發,大數據價值在越來越多的場景中被挖掘,隨着大家都在使用歐冠大數據,大數據平臺的搭建門檻也越來越低。藉助開源的力量,任何有基礎研發

原创 【數據說第十四期】必須全面瞭解線下門店核心數據指標有哪些?

【寫在前面】      在第二季梳理交流了以數據驅動業務增長爲主題的分析實戰、經驗和方法論,第三季主要以線下門店“人貨場”的理念爲主題,深入交流線下門店的數據分析的經驗以及理論分享。【數據說·小劇場】#案例#APP的“人貨場”理論的邏輯

原创 數據分析應學習邏輯思維及分析方法

-- NO.11 --這是Becomewiser的第11篇文章全文約7373字,建議先收藏再看數據分析的下限,取決於邏輯歸納。與其說提高分析質量,不如說提升邏輯歸納能力。邏輯歸納,需要擁有良好的邏輯思維,並結合領域知識形成該領域的分析方

原创 【數據說第十三期】數據驅動業務增長的底層邏輯

【寫在前面】    前面梳理交流了如何通過分析“新增”、“活躍”、“留存”等數據,本季主要深挖用戶表面行爲的背後真實、本質的需求,全面視角的分析產品的用戶行爲數據,展現驅動業務實現增長的經驗、案例以及方法論。(【數據說 ·“新增”·“活

原创 雲上AI怎麼搞?不如來個大漢堡

這是第❽篇神扯:扯扯人工智能。當我們說起雲上的人工智能應用時,確切講,通常都是指AI on Cloud。說白了,就是雲服務商把AI能力做成按需服務的資源,提供給客戶使用。然而,對於大多數客戶來說,他們需要的不是散裝能力,而是套餐能力。可

原创 通過在阿里的實踐,談一下中臺建設的Why、When與How

我在文章 “ 想轉型數據驅動,ETL是攔路虎?十年來的傳統工作模式,該升升級了”中對企業內服務架構和現代化服務體系的特點做了簡要的分析,可以看出,如果服務架構不能與日益發展、靈活多變的業務相適應,那麼企業的發展一定會被拖慢腳步。脫胎於名

原创 日誌收集組件—Flume、Logstash、Filebeat對比

概述數據的價值在於把數據變成行動。這裏一個非常重要的過程是數據分析。提到數據分析,大部分人首先想到的都是Hadoop、流計算、機器學習等數據加工的方式。從整個過程來看,數據分析其實包含了4個過程:採集,存儲,計算,展示。大數據的數據採集

原创 萬字長文講解如何做特徵工程

特徵工程是數據分析中最耗時間和精力的一部分工作,它不像算法和模型那樣是確定的步驟,更多是工程上的經驗和權衡。因此沒有統一的方法。這裏只是對一些常用的方法做一個總結。本文關注於特徵選擇部分。後面還有兩篇會關注於特徵表達和特徵預處理。一、特

原创 寫給數據分析師的數據倉庫知識(1)

數據庫 說到數據庫,我們一般是指傳統的關係型數據庫,也就是“聯機事務處理”(OLTP),主要用戶在線交易處理。比如銀行業務、電信業務之前很多都是Oracle或者DB2(可能現在很多開發者沒再用過),到後來的互聯網電商用的MySql

原创 數據分析05-SVM

標籤(空格分隔): 數據分析 SVM 是有監督的學習模型,我們需要事先對數據打上分類標籤,通過求解最大分類間隔來求解二分類問題。如果要求解多分類問題,可以將多個二分類器組合起來形成一個多分類器。 如何創建一個 SVM 分類器呢?