原创 你的大數據業務系統需要數據倉庫嗎?

1、是否需要數據倉庫:https://www.cnblogs.com/JaneZSS/p/6678548.html 2、如何搭建數據倉庫1:https://www.zhihu.com/question/19703294 3、如何搭建數據倉

原创 Win10下開發基於hadoop的spark、flink項目(全系列篇)

1、版本匹配選擇(github官方建議) 1.1 根據spark版本中的pom文件查看:https://github.com/apache/spark 2、具體安裝配置教程 2.1.1 spark安裝教程1:https://blog.

原创 深入解析hive中的NULL(空值)和''(空字符串)

一、hive裏面的 null(空值) 和 ''(空字符串) 是兩個不同的東西 1、如果查某個字段【 a 是否爲空】應該這樣寫: a is null a is not null 2、如果查某個字段 【a 是否爲''】應該這樣寫: a

原创 大數據開發總體結構圖

Hadoop家族學習路線圖 Hadoop重要組件及常用組件: 重要組件: 常用組件:

原创 在VMware中搭建多節點Hadoop集羣(全系列篇)

本文通過學習參考多篇博客及文章,精選了其中敘述比較詳細,非常適合初學者練習的文章,具體鏈接如下: 1、下載及安裝VMware虛擬機 1.1 從官網註冊下載安裝VM:https://blog.csdn.net/hao5119266/art

原创 Scala中特殊符號的使用

Scala中常用特殊符號

原创 在IDEA中利用Maven創建Spark項目

1、安裝相應sdk及環境變量配置 (1)安裝java-sdk (2)安裝scala-sdk (3)安裝spark 2、安裝IDEA 從官網下載安裝包,常規安裝,在Plugins中添加所需的插件,scala等 3、maven配置 打開mav

原创 Win10下搭建hadoop和spark環境

1、版本匹配選擇(github官方建議) 1.1 https://www.cnblogs.com/liuys635/p/12371793.html 2、具體安裝配置教程 2.1 https://blog.csdn.net/songh

原创 雲計算、大數據和人工智能三者到底什麼關係

今天跟大家講講雲計算、大數據和人工智能。爲什麼講這三個東西呢?因爲這三個東西現在非常火,並且它們之間好像互相有關係:一般談雲計算的時候會提到大數據、談人工智能的時候會提大數據、談人工智能的時候會提雲計算……感覺三者之間相輔相成又不可分割。

原创 Hive中with cube、with rollup、grouping sets用法

表結構 CREATE TABLE test (f1 string, f2 string, f3 string,

原创 PostgreSQL(pg數據庫)分區表 - 10.x之前版本(老方法)

一、在PostgreSQL中按時間自動創建分區表 PostgreSQL數據庫中對錶做分區,與11g之前的Oracle類似,需要手動創建分區表、索引等。不是很實用,最好是可以實現自動創建分區表。 PostgreSQL中通過繼承,可以支持基本

原创 IntelliJ IDEA 如何創建一個普通的 Java 項目,及創建 Java 文件並運行

https://blog.csdn.net/oschina_41790905/article/details/79475187

原创 Shell中的 IF 流程控制

1、二元比較操作符,比較變量或者比較數字. 注意數字與字符串的區別. 1.1.整數比較  -eq 等於,如:if [ "$a" -eq "$b" ]  -ne 不等於,如:if [ "$a" -ne "$b" ]  -gt 大於,如:i

原创 hadoop任務參數配置-原理-調優

原文鏈接:https://www.cnblogs.com/yinzhengjie/articles/11064239.html 一、MapReduce On Yarn的配置詳解和日常維護 htt

原创 hadoop – 如何將數據插入Hive中的Parquet表

Hive中的Parquet表本質是一種被壓縮了的二進制文件,不方便對其進行操作編輯 方法一:(針對數據量不大時) 優點:方便、快捷 insert into table TABLE_NAME1 partition(dt="2019-09-