台部落liuwei063608

set spark.sql.autoBroadcastJoinThreshold=-1; set spark.sql.shuffle.partitions=1000; set spark.sql.files.maxPartitio

2020-06-01 08:09:39

疫情下的公司百態最近要離開某數字廠，去往TMD中的一家，希望這是我的最後一家互聯網公司甚至是最後一家公司，跳槽真的很累，每次都要重新適應新的環境，構造新的人際關係。最近的互聯網形式變化的真快。王興說的2019年是前十年的最差的

2020-03-06 10:44:43

應用配置參數默認值說明建議 spark.driver.maxResultSize 1g 對Spark每個action結果集大小的限制.。 spark.driver.memoryOverhead driverMemory

2020-03-05 10:29:15

#!/bin/bash cubeName=$1 echo $cubeName buildType=$2 echo $buildType #BUILD MERGE REFRESH startTime=$((date -d $3 +%

2020-03-03 07:40:03

維度設置 Hierarchy Dimensions：維度列中彼此間存在層級關係的列職類（一二級職類）、行業（一二級行業）、地域（省、市、區）這些必選維度都可以設置爲層級關係列，可大大降低維度組合的可能性 Aggregation

2020-03-03 07:40:03

package akka.scala import akka.actor.{Actor, ActorSystem, Props} /** * 定義 AkkaTest1 Actor * Created by liuwei on

2020-02-20 18:38:29

1. Ttest（T檢驗） 1.1 概念 t檢驗是用t分佈理論來推論差異發生的概率，從而比較兩個平均數的差異是否顯著。它與f檢驗、卡方檢驗並列。 t檢驗的來歷當總體呈正態分佈，如果總體標準差未知，而且樣本容量<30，那麼這時一切可能的樣

2020-02-20 18:38:29

1. 文本詞頻Countvectorizer 1.1 概念 CountVectorizer旨在通過計數來將一個文檔轉換爲向量。當不存在先驗字典時，Countvectorizer作爲Estimator提取詞彙進行訓練，並生成一個CountV

2020-02-20 18:38:29

1. Ftest（F檢驗） 1.1 概念 F檢驗又叫方差齊性檢驗。在兩樣本t檢驗中要用到F檢驗。從兩研究總體中隨機抽取樣本，要對這兩個樣本進行比較的時候，首先要判斷兩總體方差是否相同，即方差齊性。若兩總體方差相等，則直接用t檢驗，若不等

2020-02-20 18:38:29

2020已經過了一個多月了，一直沒有心情寫年終總結，最近隨便寫寫吧動盪的2019 公司部門合併，我們成了被合併的部門，述職加薪的機會都沒有，個人在大浪中真的無能爲力，這一年除了抽表之外的收穫數據倉庫的分層理念 ODS、DWD

2020-02-20 18:38:29

1. 文本詞頻TF-IDF 1.1 概念詞頻－逆向文件頻率（TF-IDF）是一種在文本挖掘中廣泛使用的特徵向量化方法，它可以體現一個文檔中詞語在語料庫中的重要程度。詞語由t表示，文檔由d表示，語料庫由D表示。詞頻TF(t,,d)是詞語

2020-02-20 18:38:29

1. Chi-squared test（卡方檢驗/χ2檢驗） 1.1 概念 χ2檢驗是對分類數據的頻數進行分析的統計方法。（統計學第六版中國人女大學出版社 P216）卡方檢驗是用途非常廣的一種假設檢驗方法，它在分類資料統計推斷中的應用

2020-02-20 18:38:28

1. K-S正態檢驗 1.1 概念 K-S檢驗不僅能夠檢驗單個總體是否服從某一理論分佈，還能夠檢驗兩總體分佈是否存在顯著差異。其原假設是：兩組獨立樣本來自的兩總體的分佈無顯著差異。這裏是以變量值的秩作爲分析對象，而非變量值本身。

2020-02-20 18:38:28

1. 文本詞頻Word2Vec 1.1 概念 word2vec就是用一個一層的神經網絡(CBOW的本質)把one-hot形式的詞向量映射到分佈式形式的詞向量用來推斷總體參數的統計量稱爲估計量（estimator) 當經測定的具體數值代

2020-02-20 18:38:27

數據源有三個來源 1.自己的後端表（包括mysql和hive） 2.APP自己的埋點日誌 3.其他部門的hive表 ODS層數據抽取 1.Flume抽取埋點日誌 2.kafka抽取實時信息並存入HDFS 3.Sqoop抽取mys

2019-10-25 14:27:07