原创 hive 分區表和數據產生關聯三種方式

寫在前面: 想要從hive數據庫裏面查詢到數據就要求hive的元數據必須存在且元數據指向的的HDFS路徑中也必須要存在實際的數據 (1)方式一:上傳數據後修復 使用的場景是歷史數據積累了很多分區數據,推薦使用該方式,該方法將HDFS上的數

原创 mac  新的hosts生效命令

mac  新的hosts生效命令如下: sudo killall -HUP mDNSResponder 點贊 收藏 分享 文章舉報 自由的行走 發佈了42 篇原創文章 · 獲贊

原创 參數估計 python實踐

1、背景想要探究movielens 1M評分數據的評分分佈情況是否符合某種分佈,做如下假設 2、理論推導    3、算法實現  3.1 數據準備工作 #導入所需要的庫 import pandas as pd import numpy

原创 HIVE 分組排序查詢

筆者在參加面試時遇到的一個關於hive數據庫查詢的的問題題意大概是這個樣子的。有如下圖結構的一個表: 表中的數據是長這個樣子的:    面試官要求我查詢的結果是長這個樣子的  我第一印象覺得這個題還蠻簡單的,就寫了一個 selec

原创 統計學習系列之參數估計

參數估計 1、什麼是參數估計 簡單來說是:參數估計是指使用樣本統計量估計總體的參數的 【百度百科的解釋如下】 參數估計(parameter estimation),統計推斷的一種。根據從總體中抽取的隨機樣本來估計總體分佈中未知參數

原创 HIVE 函數大全

一、關係運算: 1. 等值比較: = 語法:A=B 操作類型:所有基本類型 描述: 如果表達式A與表達式B相等,則爲TRUE;否則爲FALSE 舉例: hive> select 1 from lxw_dual where 1=1; 1 2

原创 統計學習第四彈--隨機變量的概率分佈

    關於隨機變量概率分佈的重要概念: 概率:對事件的發生的可能性大小的度量值 隨機變量:事先不能確定其取值的變量 離散型隨機變量:只能取有限個值的隨機變量 連續型隨機變量:可以取一個或多個區間中任何值的隨機變量 期望值:隨機變量的平

原创 hive常用的時間日期函數

1.unix_timestamp() 返回當前時區的unix時間戳 返回類型:bigint hive (tmp)> select unix_timestamp() from hive_sum limit 1; 1465875016 2.f

原创 hive explode & lateral view

1.explode hive wiki對於expolde的解釋如下: explode() takes in an array (or a map) as an input and outputs the elements of the

原创 統計學習之假設檢驗

1、什麼是假設檢驗 假設檢驗(hypothesis testing),又稱統計假設檢驗,是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法。顯著性檢驗是假設檢驗中最常用的一種方法,也是一種最基本的統計推斷

原创 Scala-2.13.1的下載和安裝

一、在Windows操作系統中安裝Scala Scala程序需要運行在JVM(Java虛擬機)上,因此,在安裝Scala之前,需要在Windows系統中安裝Java,然後,再安裝Scala。 第1步:安裝Java Scala程序需要運行在

原创 汽車銷售數據相關性分析

數據:https://pan.baidu.com/s/1VlTy4nfvgXdDzgimVguZMg 數據展示: 券代碼  日期 傳統汽車銷量 國內生產總值當季值(億元)x1 汽油價格(元/噸)x2 人民幣貸款基準利率%x3 汽車總產量(

原创 統計學習第五彈--python實踐概率分佈

正態分佈(Normal distribution) 正態分佈(Normal distribution),又名高斯分佈(Gaussian distribution),正態曲線呈鍾型,兩頭低,中間高,左右對稱,中央部位的概率密度最大。越偏離均

原创 error: object kafka is not a member of package org.apache.spark.streaming

該錯誤的原因是在 kafka-0-10 版本後 接口發生了變化 官方修改爲:kafka010,就是說在原來的基礎上需要在kafka後面添加010即可例如:   參考的官方文檔鏈接是:http://spark.apache.org/doc

原创 ERR! Error: CERT_UNTRUSTED

在使用 npm install express --save 時報錯  解決方法:運行此命令即可 npm config set strict-ssl false  然後在運行你想安裝的東西的命令就行 點贊 收藏