原创 【數據倉庫】數據倉庫的介紹

一 數據倉庫的概念 1 什麼是數據倉庫 數據倉庫,英文名稱爲Data Warehouse,可簡寫爲DW或DWH。數據倉庫,是爲企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它出於分析性報告和決策支持目的而創建。爲需要業務智能

原创 【hadoop】Archive命令使用

Archive命令 hadoop Archive是一個高效地將小文件放入HDFS塊中的文件存檔文件格式,它能夠將多個小文件打包成一個後綴爲.har文件,這樣減少namenode內存使用的同時,仍然允許對文件進行透明的訪問。 had

原创 【python】視頻、圖片使用request獲取及處理

視頻獲取 通過request import requests url = "https://flv.bn.netease.com/videolib3/1703/29/qozNg4588/SD/qozNg4588-mobile.mp

原创 【scala】Json與Scala類型的相互轉換處理

1、頭文件 import com.alibaba.fastjson.{JSON, JSONArray, JSONObject} import com.fasterxml.jackson.databind.ObjectMapper

原创 【特殊字符】 split函數 使用

scala 語言 對於name = "(weuiewui)" 分詞是如果表達 對於特殊字符均使用\\+特殊字符 name.split("\\(") hive  語法: split(string str, string pat)  返回值

原创 【spark】之 spark streaming

原文鏈接:https://blog.csdn.net/liangzelei/article/details/80661963 SparkStreaming   Spark Streaming類似

原创 【廣告投放】名稱概念

原文鏈接:https://www.zhihu.com/question/26506736 【廣告投放之名詞概念】1、關鍵詞的分類1)品牌詞2)產品詞3)競品詞4)通用詞5)人羣詞關鍵詞如

原创 【自然語言處理】知識圖譜

原文鏈接:https://edu.csdn.net/course/play/9250/215582 語境 分類 詳情 物理語境 時間、地點/場所 ; 天氣 ; 情緒及情感;

原创 【spark】spark 原理

原文鏈接:http://www.raincent.com/content-85-11052-1.html spark優勢: Spark 是在借鑑了 MapReduce 之上發展而來的,繼承了其分

原创 scala 中 insertinto 插入hive數據數據重複或者亂碼或者爲空

數據讀寫 詳細看官網:http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameReader   hive數據 讀取: #

原创 hive 和mysql同樣的數據group by 之後爲什麼數據量不一致

hive區分大小寫,mysql是不區分大小寫的。因此會有這種問題

原创 scala List 及toList的區別

第一種情況 String對象 第二種情況String對象 對象是Array

原创 hive map,arrary ,struct 複雜結構小記

1、map結構 定義:map<datatype1,datatype2>  類型1和類型2可以一樣 map<string,double>  兩種數據類型合成 例子:{“data":1232.23,”data2":323.0} 與其他語言一樣

原创 Sequential Model-Based Optimization(SMBO)

The Gaussian Process Approach(GP) 所謂概率模型,是指訓練模型的形式是P(Y|X)。輸入是X,輸出是Y,訓練後模型得到的輸出不是一個具體的值,而是一系列的概率值(對應於分類問題來說,就是輸入X對應於各個不同