原创 【數據倉庫】數據倉庫的介紹
一 數據倉庫的概念 1 什麼是數據倉庫 數據倉庫,英文名稱爲Data Warehouse,可簡寫爲DW或DWH。數據倉庫,是爲企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它出於分析性報告和決策支持目的而創建。爲需要業務智能
原创 【hadoop】Archive命令使用
Archive命令 hadoop Archive是一個高效地將小文件放入HDFS塊中的文件存檔文件格式,它能夠將多個小文件打包成一個後綴爲.har文件,這樣減少namenode內存使用的同時,仍然允許對文件進行透明的訪問。 had
原创 【python】視頻、圖片使用request獲取及處理
視頻獲取 通過request import requests url = "https://flv.bn.netease.com/videolib3/1703/29/qozNg4588/SD/qozNg4588-mobile.mp
原创 【scala】Json與Scala類型的相互轉換處理
1、頭文件 import com.alibaba.fastjson.{JSON, JSONArray, JSONObject} import com.fasterxml.jackson.databind.ObjectMapper
原创 【特殊字符】 split函數 使用
scala 語言 對於name = "(weuiewui)" 分詞是如果表達 對於特殊字符均使用\\+特殊字符 name.split("\\(") hive 語法: split(string str, string pat) 返回值
原创 【spark】之 spark streaming
原文鏈接:https://blog.csdn.net/liangzelei/article/details/80661963 SparkStreaming Spark Streaming類似
原创 【廣告投放】名稱概念
原文鏈接:https://www.zhihu.com/question/26506736 【廣告投放之名詞概念】1、關鍵詞的分類1)品牌詞2)產品詞3)競品詞4)通用詞5)人羣詞關鍵詞如
原创 【自然語言處理】知識圖譜
原文鏈接:https://edu.csdn.net/course/play/9250/215582 語境 分類 詳情 物理語境 時間、地點/場所 ; 天氣 ; 情緒及情感;
原创 【spark】spark 原理
原文鏈接:http://www.raincent.com/content-85-11052-1.html spark優勢: Spark 是在借鑑了 MapReduce 之上發展而來的,繼承了其分
原创 scala 中 insertinto 插入hive數據數據重複或者亂碼或者爲空
數據讀寫 詳細看官網:http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameReader hive數據 讀取: #
原创 hive 和mysql同樣的數據group by 之後爲什麼數據量不一致
hive區分大小寫,mysql是不區分大小寫的。因此會有這種問題
原创 scala List 及toList的區別
第一種情況 String對象 第二種情況String對象 對象是Array
原创 hive map,arrary ,struct 複雜結構小記
1、map結構 定義:map<datatype1,datatype2> 類型1和類型2可以一樣 map<string,double> 兩種數據類型合成 例子:{“data":1232.23,”data2":323.0} 與其他語言一樣
原创 Sequential Model-Based Optimization(SMBO)
The Gaussian Process Approach(GP) 所謂概率模型,是指訓練模型的形式是P(Y|X)。輸入是X,輸出是Y,訓練後模型得到的輸出不是一個具體的值,而是一系列的概率值(對應於分類問題來說,就是輸入X對應於各個不同