原创 頭條大數據實踐

一、 除了日誌數據,關係數據庫中的數據也是數據分析的重要來源。在數據的採集方式上,用Spark實現類 Sqoop 的分佈式抓取替代了早期定期用單機全量抓取 MySQL 數據表的方式,有效的提升了抓取速度,突破了單機瓶頸。再之後爲了減少My

原创 大數據權限與安全

權限的管控,歷來是大數據平臺中最讓人頭疼的問題之一。管得嚴了,業務不流暢,用戶不開心,放得寬了,安全沒有底,你能放心?而且大數據平臺組件,服務衆多;架構,流程複雜,有時候,就是你想管,也未必能管得起來。涉及到具體的技術方案層面,Kerber

原创 2.2、寬依賴與窄依賴深度剖析

寬依賴與窄依賴深度剖析