原创 hive使用tez環境配置

Tez引擎包下載: https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.8.4/apache-tez-0.8.4-bin.tar.gz 1:將下載的安裝包解壓 $ pwd /opt/ubd/

原创 在spark,MapReduce 或 Flink 程序裏面制定環境變量

以jdk來舉例,當我們需要 更高版本的jdk時,而默認的環境引用的是低版本的jdk,會引發如下錯誤: Exception in thread "main" java.lang.UnsupportedClassVersionError:

原创 spark日常報錯問題-持續性更新

1:spark運行過程中出現與driver鏈接異常,並存在磁盤讀寫一場: java.io.IOException: Failed to delete: /mnt/sd04/yarn/nm/usercache/hdfs/appcache/a

原创 flink設置historyserver

可以參考下官網https://ci.apache.org/projects/flink/flink-docs-release-1.8/monitoring/historyserver.html 1:配置conf/flink-conf.ya

原创 kafka參數整理

首先感謝很多先輩們的總結,讓我省去了很多思考的功夫,更快的整理出這些從0.10.0 kafka官網中查詢到的參數,但是感覺官網列出的這些參數不是很全,後續發現新參數會逐步添加到這個裏面。如果有同事發現錯誤的地方或者有個人見解的地方也請留言

原创 機器學習(四):初級matplitlib繪圖-2維繪圖

注:百度百科案例 首先,我們必須導入對應的庫。主要的繪圖函數在子庫 matplotlib.pyplot import numpy as np import matplitlib as nml import matplotlib.pypl

原创 機器學習(十):自然語言處理初級理解

什麼是自然語言處理: NLP(Natural Language Processing,自然語言處理)當中所謂的「自然」是爲了與人造的語言(比如 C 語言, JAVA 等)區分開來,指自然形成的語言,即平時人們日常使用的交流的語言。「語言」

原创 機器學習(十二):深度神經網絡淺析

先闡述一些概念性的東西(也是對之前的東西的回顧,記性不好,老忘): 迴歸問題與分類問題: 迴歸:計算圓形面積的例子就屬於迴歸問題,即我們的目的是對於一個輸入x,預測其輸出值y,且這個y值是根據x連續變化的值。 分類:分類問題則是事先給定若

原创 機器學習(八):nba數據分析小案例

注:基於實驗樓一個小項目 數據下載地址: http://labfile.oss.aliyuncs.com/courses/782/data.zip 代碼如下: import pandas as pd import math import

原创 機器學習(七):k鄰近算法初級淺析案例

注:基於現有小案例攥寫 K 近鄰算法採用測量不同特徵值之間的距離方法進行分類: 優點:精度高、對異常值不敏感、無數據輸入假定。 缺點:計算複雜度高、空間複雜度高。 K 近鄰算法適用數據範圍爲:數值型和標稱型 標稱型:標稱型目標變量的結果只

原创 機器學習(十一):新聞摘要提取小案例

注:基於現有案例教程 完成一個相對簡單的 “關鍵字提取” 算法,來達到最自然語言處理的一個初步的理解。 詞彙數據下載: http://labfile.oss.aliyuncs.com/courses/741/nltk_data.tar.g

原创 機器學習(九):鳶尾花-邏輯迴歸

注:基於現有案例教程 鳶尾花數據來源於seaborn中自帶的數據集,很多類似的都會自帶這個數據集 代碼如下: import pymc3 as pm import pandas as pd import scipy.stats as st

原创 機器學習(五):初級matplitlib繪圖-其他繪圖樣式和3維繪圖

注(百度百科案例) 使用二維數據集和其他一些數據: 散點圖: import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt np.random.s

原创 機器學習(六):初級matplitlib繪圖-之前的微補充

將一張圖繪製在另一張圖的內部: fig = plt.figure() # 新建畫板 axes1 = fig.add_axes([0.1, 0.1, 0.8, 0.8]) # 大畫布 axes2 = fig.add_axes([0.2,

原创 機器學習(三):決策樹,隨機森林

樹形模型是機器學習中最爲常用的模型之一,其同KNN算法一樣,也是弱假設型模型。而樹形模型裏面的決策樹是bagging、隨機森林以及boosting的基礎,因此想要了解隨機森林,首先要了解決策樹: 決策樹是一種樹形結構,其中每個內部節點表示