原创 B. 數據倉庫 --- 建模技術 --- 事實表 --- 針對事實表的時間跟蹤

B. 數據倉庫 — 建模技術 — 事實表 — 針對事實表的時間跟蹤 概述 存在三種基本事實表粒度:事務級別、週期快照和累積快照。個別情況下,在事實表中增加行有效時期、行截止日期和當前行標識是非常有用的,與採用類型2緩慢變化維度,在

原创 A. 阿里巴巴 數據中臺 --- 概述

A. 阿里巴巴 數據中臺 — 概述 概述 雲上數據中臺業務模式 — 6大獨特價值 業務體感 OneTeam協同作戰 特色大數據人 雲上數據中臺大數據技術 雲上數據中臺建設方法論 雲上數據中臺產品化服務 底層基礎設施 業務

原创 B. 人工智能 --- 算法概覽

B. 算法概覽 概率圖模型 類型 貝葉斯網絡:有向圖模型 連接方式 順連 分連 匯連 執行步驟 首先要根據變量之間的依賴關係建立網絡的拓撲結構 其次要根據拓

原创 C. 人工智能 --- 監督算法

C. 監督算法 數據 離散型 連續性 分類算法 k近鄰算法kNN 貝葉斯 樸素貝葉斯算法 拉普拉斯平滑:爲了避免屬性攜帶的信息被訓練集中未曾出現過的屬性值所幹擾。 半樸素貝葉斯分類器 Bay

原创 C. 高性能架構 --- 高性能負載均衡

C. 高性能架構 --- 高性能負載均衡 概述 不同類型的請求,對網絡鏈路要求不一樣,比如說 搜索請求的要求是:延遲 視頻上傳的要求是:吞吐量 單從硬件來看,關於優化資源的利用率,避免某個服務器負載過高 分類

原创 A. 人工智能 --- 算法設計步驟

A. 算法設計步驟 數據採集 數據類型 屬性 數值型 字符串 類別 標籤 類別 標籤 數據預處理 數據採樣 上採樣 下采樣 去除唯一屬性 特徵提取算法

原创 A. 人工智能 --- 激活函數

A. 激活函數 激活函數分類 Sigmoid函數 優點 便於求導的平滑函數 缺點 容易出現gradient vanishing 函數輸出並不是zero-centered 冪運算相對來講

原创 A. 阿里巴巴 數據中臺 --- 建設之路

A. 阿里巴巴 數據中臺 — 建設之路 現狀 不同的業務有不同的ETL團隊,有不同的數據體系 業務上的困擾 數據標準 定義:字段命名規範、口徑不統一、算法不一致 開發:面向各業務線的“煙囪式”數據開發,在浪費技術資源的同時

原创 B. 阿里巴巴 數據中臺 --- OneEntity體系方法論 與 OneService體系方法論

B. 阿里巴巴 數據中臺 — OneEntity體系方法論 與 OneService體系方法論 OneEntity體系方法論 OneEntity統一實體 分類 一般質量OneEntity:不能貼上“特定標籤”的OneEnti

原创 B. 阿里巴巴 數據中臺 --- 總結

B. 阿里巴巴 數據中臺 — 總結 最近發展 數據技術領域 數據模型領域:核心職責依然是負責數據模型的建設和管理。在阿里巴巴數據公共層建設時期,該領域關注全局數據模型的設計和數據模型師的培養,而此時更關注的是,如何將數據模型師

原创 大數據平臺 - 整體建設思想

大數據平臺 - 整體建設思想 大數據平臺整體建設思想 目標 爲使用平臺的用戶解決了哪些問題,掃除了哪些障礙,提升了多少工作效率,附加了哪些增值收益 內部組件的橫向聯通能力 業務流程上縱向貫穿打通上下游鏈路的能力 建設指導方

原创 大數據平臺 - 其他

大數據平臺 - 其他 數據可視化平臺 可視化平臺產品定位和需求分析 大的產品功能維度 以頁面維度爲單位進行自定義配置開發,在頁面中可以自由添加多個圖表展示控件。 支持自定義圖表頁面佈局的能力,包括但不限於 Frame 和 Co

原创 C. 數據倉庫 --- ETL

C. 數據倉庫 — ETL 需求綜合 業務需求:在項目將要支持的業務需求定義期間,必須維護一個揭示關鍵性能指標的列表,以及業務用戶需要研究某個KPI"爲什麼"發生變化時,所需要的下鑽和跨鑽目標 合規性:需要列出所有的數據以及最終

原创 C. 數據倉庫 --- 生命週期

C. 數據倉庫 — 生命週期 概述 第一步:程序/項目規劃 第二步實施(程序/項目管理):業務需求定義 技術結構設計 產品選擇安裝 維度建模 物理設計:ETL設計與開發 BI應用設計:BI應用開發 第三步部署(

原创 B. 阿里巴巴 數據中臺 --- OneData體系方法論

B. 阿里巴巴 數據中臺 — OneData體系方法論 第一個關鍵點:數據倉庫規劃和數據規範定義 基於業務但超越和脫離業務需求限制的抽象:例子 業務:電商 數據域:交易 業務過程:加入購物車 業務過程:下單 業務過程:支付