原创 SparkSQL/hivesql參數調優

set spark.sql.autoBroadcastJoinThreshold=-1; set spark.sql.shuffle.partitions=1000; set spark.sql.files.maxPartitio

原创 疫情下的互聯網公司百態

疫情下的公司百態 最近要離開某數字廠,去往TMD中的一家,希望這是我的最後一家互聯網公司甚至是最後一家公司,跳槽真的很累,每次都要重新適應新的環境,構造新的人際關係。 最近的互聯網形式變化的真快。王興說的2019年是前十年的最差的

原创 spark參數說明

應用配置 參數 默認值 說明 建議 spark.driver.maxResultSize 1g 對Spark每個action結果集大小的限制.。 spark.driver.memoryOverhead driverMemory

原创 自動bulid kylin cube腳本

#!/bin/bash cubeName=$1 echo $cubeName buildType=$2 echo $buildType #BUILD MERGE REFRESH startTime=$((date -d $3 +%

原创 Kylin膨脹率優化

維度設置 Hierarchy Dimensions:維度列中彼此間存在層級關係的列 職類(一二級職類)、行業(一二級行業)、地域(省、市、區)這些必選維度都可以設置爲層級關係列,可大大降低維度組合的可能性 Aggregation

原创 Akka初學1

package akka.scala import akka.actor.{Actor, ActorSystem, Props} /** * 定義 AkkaTest1 Actor * Created by liuwei on

原创 Ttest(T檢驗)

1. Ttest(T檢驗) 1.1 概念 t檢驗是用t分佈理論來推論差異發生的概率,從而比較兩個平均數的差異是否顯著。它與f檢驗、卡方檢驗並列。 t檢驗的來歷 當總體呈正態分佈,如果總體標準差未知,而且樣本容量<30,那麼這時一切可能的樣

原创 文本詞頻Countvectorizer

1. 文本詞頻Countvectorizer 1.1 概念 CountVectorizer旨在通過計數來將一個文檔轉換爲向量。當不存在先驗字典時,Countvectorizer作爲Estimator提取詞彙進行訓練,並生成一個CountV

原创 Ftest(F檢驗)

1. Ftest(F檢驗) 1.1 概念 F檢驗又叫方差齊性檢驗。在兩樣本t檢驗中要用到F檢驗。 從兩研究總體中隨機抽取樣本,要對這兩個樣本進行比較的時候,首先要判斷兩總體方差是否相同,即方差齊性。若兩總體方差相等,則直接用t檢驗,若不等

原创 2019年總結

2020已經過了一個多月了,一直沒有心情寫年終總結,最近隨便寫寫吧 動盪的2019 公司部門合併,我們成了被合併的部門,述職加薪的機會都沒有,個人在大浪中真的無能爲力,這一年除了抽表之外的收穫 數據倉庫的分層理念 ODS、DWD

原创 文本詞頻TF-IDF

1. 文本詞頻TF-IDF 1.1 概念 詞頻-逆向文件頻率(TF-IDF)是一種在文本挖掘中廣泛使用的特徵向量化方法,它可以體現一個文檔中詞語在語料庫中的重要程度。 詞語由t表示,文檔由d表示,語料庫由D表示。詞頻TF(t,,d)是詞語

原创 Chi-squared test(卡方檢驗/χ2檢驗)

1. Chi-squared test(卡方檢驗/χ2檢驗) 1.1 概念 χ2檢驗是對分類數據的頻數進行分析的統計方法。(統計學第六版 中國人女大學出版社 P216) 卡方檢驗是用途非常廣的一種假設檢驗方法,它在分類資料統計推斷中的應用

原创 K-S正態檢驗

1. K-S正態檢驗 1.1 概念 K-S檢驗不僅能夠檢驗單個總體是否服從某一理論分佈,還能夠檢驗兩總體分佈是否存在顯著差異。其原假設是:兩組獨立樣本來自的兩總體的分佈無顯著差異。 這裏是以變量值的秩作爲分析對象,而非變量值本身。  

原创 文本詞頻Word2Vec

1. 文本詞頻Word2Vec 1.1 概念 word2vec就是用一個一層的神經網絡(CBOW的本質)把one-hot形式的詞向量映射到分佈式形式的詞向量 用來推斷總體參數的統計量稱爲估計量(estimator) 當經測定的具體數值代

原创 58招聘數據倉庫技術架構圖

數據源有三個來源 1.自己的後端表(包括mysql和hive) 2.APP自己的埋點日誌 3.其他部門的hive表 ODS層數據抽取 1.Flume抽取埋點日誌 2.kafka抽取實時信息並存入HDFS 3.Sqoop抽取mys