原创 Hive安裝

參考 https://blog.csdn.net/Lee20093905/article/details/78871336 1.先裝好數據庫 https://blog.csdn.net/qq_40759271/article/deta

原创 Centos7 mysql安裝

參考 https://www.cnblogs.com/starof/p/4680083.html 1.先安裝wget服務 $yum -y install wget 2.安裝mysql $wget http://dev.mysql.co

原创 numpy

import numpy as np a =[ [1,2,3,4], [5,6,7,8] ] b = np.array(a) b.argmax() #7 (返回沿軸axis最大值的索引) numpy.argmax(a,

原创 windows Anaconda安裝

參考:https://www.jianshu.com/p/169403f7e40c 1.下載安裝 下載地址迅雷: https://repo.continuum.io/archive/Anaconda3-5.0.1-Windows-x8

原创 MapReduce Join操作

Mapreduce連接 1、reduce side join 在reduce端進行表的連接,該方法的特點就是操作簡單,缺點是map端shffule後傳遞給reduce端的數據量過大,極大的降低了性能 連接方法: (1)map端讀入輸入

原创 Linux Java開發環境搭建

一 、jdk安裝配置 1.下載jdk的tar.gz包 2.解壓 tar -zxvf jdk.tar.gz 3.配置環境變量 //編輯文件 sudo vim /etc/profile //在文件末尾添加以下信息 JAVA_HOME=/us

原创 MapReduce應用

一、數據去重 問題描述 數據去重的最終目標是讓原始數據中出現次數超過一次的數據在輸出文件中只出現一次。 問題分析 根據reduce的過程特性,會自動根據key來計算輸入的value集合 把數據作爲key輸出給reduce,無論這個數據出

原创 Hadoop文件系統及其java接口

一、FileSystem org.apache.hadoop.fs.FileSystem是hadoop的抽象文件系統,爲不同的數據訪問提供了統一的接口,並提供了大量具體文件系統的實現,滿足hadoop上各種數據訪問需求 如以下幾個具體實

原创 Hadoop IO操作

HadoopIO操作意義 Hadoop自帶一套用於I/O的原子性的操作(不會被線程調度機制打斷,一直到結束,中間不會有任何context switch)。 特點是基於保障海量數據集的完整性和壓縮性 。 Hadoop提供了一些用於開發

原创 MapReduce進階

一、Combiner 1.1原因: 在上述過程中,我們看到至少兩個性能瓶頸: (1)如果我們有10億個數據,Mapper會生成10億個鍵值對在網絡間進行傳輸,但如果我們只是對數據求最大值,那麼很明顯的Mapper只需要輸出它所知道的最大

原创 MapReduce概述

1.瞭解MapReduce 1.1簡介 Hadoop MapReduce是一個軟件框架,基於該框架能夠容易地編寫應用程序,這些應用程序能夠運行在由上千個商用機器組成的大集羣上,並以一種可靠的,具有容錯能力的方式並行地處理上TB級別的海量數

原创 java web問題

1.由於mysql版本過高創建連接的時候會出現如下報告 Establishing SSL connection without server's identity verification is not recommended. 解決方法

原创 Servlet

1.GET請求 如請求方式爲GET方式,則可以在請求的URL地址後以?的形式帶上交給服務器的數據,多個數據之間以&進行分隔。如: http://localhost:8080/W09_Servlet1/HelloServlet?

原创 大數據概論

1.大數據是什麼,5V? 大數據(big data),指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。 大數據的5V特

原创 大數據概念1

1.CAP, BASE 1.CAP 數據一致性(consistency): 數據一致更新,所有數據變動都是同步的,如果系統對一個寫操作返回成功,那麼之後的讀請求都必須讀到這個新數據;如果返回失敗,那麼所有讀操作都不能讀到這個數據,對調