原创 day01運算

1:課程安排 9:00 20分鐘打字 9:20 開始講課 回顧昨天的內容 今天的內容 開始今天內容講解 12:00 2:00 6:00

原创 flume通過公網ip採集到hdfs上

需求描述: 公司的服務器在不同的地市都有分佈,需要把不同地方的服務器的日誌文件都收集到公司的內網hadoop集羣中,來進行分析,(公司的hadoop集羣和其他地方的集羣不在同一內網中,需要藉助公網來進行傳輸) 簡單的模型圖如下

原创 centos 6.7 yum install mysql

1:刪除mysql的東西 [root@master ~]# rpm -e --nodeps mysql 2:安裝mysql [root@master ~]# yum install -y mysql-server mysql my

原创 SPARK提交job的幾種模式

常見語法: ./bin/spark-submit \ --class <main-class> --master <master-url> \ --deploy-mode <deploy-mode> \ --con

原创 星形模型和雪花模型

一、概述 在多維分析的商業智能解決方案中,根據事實表和維度表的關係,又可將常見的模型分爲星型模型和雪花型模型。在設計邏輯型數據的模型的時候,就應考慮數據是按照星型模型還是雪花型模型進行組織。 當所有維表都直接連接到" 事實表"上時

原创 spark性能調優都有哪些方法

1、常規性能調優:分配資源、並行度。。。等 $SPARK_HOME/bin/spark-submit\ --class cn.spark.sparkTest.WC\ --master yarn-client\ --driver-m

原创 java中模擬一個阻塞隊列(多線程)

模擬一個阻塞隊列,當這個隊列中滿了的話,再往裏添加元素則會阻塞在那裏,直到有元素取出的時候才能往裏加,取元素的時候,當隊列是空的時候則會阻塞在那裏,一直到有元素添加爲止 import java.util.LinkedList; i

原创 大數據與深度學習區別?

簡單來說: 1)深度學習(Deep Learning)只是機器學習(Machine Learning)的一種類別,一個子領域。機器學習 > 深度學習 2)大數據(Big Data)不是具體的方法,甚至不算具體的研究學科,而只是對某一類

原创 大數據具體行業的應用?

從推送起家,依託推送產品的海量終端覆蓋,同時發展了大數據和移動營銷業務,目前已成爲基於大數據的移動互聯網綜合服務提供商。 案例 智能推送:通過精準的大數據分析,做到在合適的時間,合適的地點,把合適的消息,推送給合適的人。讓推送變的更

原创 個人如何獲取大數據

有三個來源 1)政府職能部門開放的數據,如國家統計局,可以訪問官網獲取; 2)互聯網平臺提供商,如twitter、facebook、百度、新浪微博、淘寶,通過開放接口或者專業工具獲取; 3)數據資源商業機構,如數據堂,有免費和收費數據

原创 大數據方面核心技術有哪些?

總的來說大數據有5個部分。數據採集,數據存儲,數據清洗,數據挖掘,數據可視化。數據採集有硬件採集,如OBD,有軟件採集,如滴滴,淘寶。數據存儲就包括NOSQL,hadoop等等。數據清洗包括語議分析,流媒體格式化等等。數據挖掘包括關聯

原创 Scala 在大數據處理方面有何優勢?

我想大部分應用開發程序員,最關鍵是看有什麼類庫合適的方便特定領域的應用開發。就像ruby有rails做web開發,你可以去論證ruby優缺點,但實際上應用開發效率提升很大程度上依靠類庫。 現在Spark是大數據領域的殺手級應用框架,B

原创 大數據公司 Splunk 和 Cloudera 的核心競爭力在哪裏?

Splunk面向的是細分市場,分析Machine Log,並在上面集成了完整的專用模塊。所有用例都是相對專門的領域,因此可以對這些進行專門優化。它的核心競爭力應該是領域知識和抽象,以及相關的優化和功能,而不是大數據。如果我沒搞錯的話,

原创 國內有哪些大數據公司?

國內大數據公司名單彙總 大數據近幾年來可謂蓬勃發展,它不僅是企業趨勢,也是一個改變了人類生活的技術創新。大數據對行業用戶的重要性也日益突出。掌握數據資產,進行智能化決策,已成爲企業脫穎而出的關鍵。因此,越來越多的企業開始重視大數據戰略