台部落小牛学堂2019

1：課程安排 9：00 20分鐘打字 9:20 開始講課回顧昨天的內容今天的內容開始今天內容講解 12:00 2:00 6:00

2020-06-20 13:24:30

需求描述：公司的服務器在不同的地市都有分佈，需要把不同地方的服務器的日誌文件都收集到公司的內網hadoop集羣中，來進行分析，（公司的hadoop集羣和其他地方的集羣不在同一內網中，需要藉助公網來進行傳輸）簡單的模型圖如下

2020-06-20 13:24:30

1：刪除mysql的東西 [root@master ~]# rpm -e --nodeps mysql 2：安裝mysql [root@master ~]# yum install -y mysql-server mysql my

2020-06-20 13:24:30

常見語法： ./bin/spark-submit \ --class <main-class> --master <master-url> \ --deploy-mode <deploy-mode> \ --con

2020-06-20 13:24:30

一、概述在多維分析的商業智能解決方案中，根據事實表和維度表的關係，又可將常見的模型分爲星型模型和雪花型模型。在設計邏輯型數據的模型的時候，就應考慮數據是按照星型模型還是雪花型模型進行組織。當所有維表都直接連接到" 事實表"上時

2020-06-09 00:06:43

1、常規性能調優：分配資源、並行度。。。等 $SPARK_HOME/bin/spark-submit\ --class cn.spark.sparkTest.WC\ --master yarn-client\ --driver-m

2020-02-22 05:19:37

模擬一個阻塞隊列，當這個隊列中滿了的話，再往裏添加元素則會阻塞在那裏，直到有元素取出的時候才能往裏加，取元素的時候，當隊列是空的時候則會阻塞在那裏，一直到有元素添加爲止 import java.util.LinkedList; i

2020-02-22 05:19:37

簡單來說： 1）深度學習（Deep Learning）只是機器學習（Machine Learning）的一種類別，一個子領域。機器學習 > 深度學習 2）大數據（Big Data）不是具體的方法，甚至不算具體的研究學科，而只是對某一類

2019-02-21 14:24:01

從推送起家，依託推送產品的海量終端覆蓋，同時發展了大數據和移動營銷業務，目前已成爲基於大數據的移動互聯網綜合服務提供商。案例智能推送：通過精準的大數據分析，做到在合適的時間，合適的地點，把合適的消息，推送給合適的人。讓推送變的更

2019-02-20 13:38:12

有三個來源 1）政府職能部門開放的數據，如國家統計局，可以訪問官網獲取； 2）互聯網平臺提供商，如twitter、facebook、百度、新浪微博、淘寶，通過開放接口或者專業工具獲取； 3）數據資源商業機構，如數據堂，有免費和收費數據

2019-02-19 19:27:27

總的來說大數據有5個部分。數據採集，數據存儲，數據清洗，數據挖掘，數據可視化。數據採集有硬件採集，如OBD，有軟件採集，如滴滴，淘寶。數據存儲就包括NOSQL，hadoop等等。數據清洗包括語議分析，流媒體格式化等等。數據挖掘包括關聯

2019-02-19 06:52:10

我想大部分應用開發程序員，最關鍵是看有什麼類庫合適的方便特定領域的應用開發。就像ruby有rails做web開發，你可以去論證ruby優缺點，但實際上應用開發效率提升很大程度上依靠類庫。現在Spark是大數據領域的殺手級應用框架，B

2019-02-01 22:07:26

Splunk面向的是細分市場，分析Machine Log，並在上面集成了完整的專用模塊。所有用例都是相對專門的領域，因此可以對這些進行專門優化。它的核心競爭力應該是領域知識和抽象，以及相關的優化和功能，而不是大數據。如果我沒搞錯的話，

2019-02-01 22:07:15

國內大數據公司名單彙總大數據近幾年來可謂蓬勃發展，它不僅是企業趨勢,也是一個改變了人類生活的技術創新。大數據對行業用戶的重要性也日益突出。掌握數據資產,進行智能化決策,已成爲企業脫穎而出的關鍵。因此,越來越多的企業開始重視大數據戰略

2019-02-01 22:07:15