原创 pandas-利用python進行數據分析

pandas簡介 pandas 是基於NumPy 的一種工具,該工具是爲了解決數據分析任務而創建的。Pandas 納入了大量庫和一些標準的數據模型,提供了高效地操作大型數據集所需的工具,pandas提供了大量能使我們快速便捷地處理數據的

原创 Hadoop的整體介紹及安裝

什麼是Hadoop Hadoop項目主要包括以下四個模塊: Hadoop Common 爲其他Hadoop模塊提供基礎設施 Hadoop HDFS 一個高可靠,高吞吐量的分佈式文件系統 Hadoop MapReduce 一個分佈式離線

原创 Sqoop知識點整理

Sqoop Sqoop是一款開源的工具,主要用於在HADOOP不傳統的數據庫(mysql、postgresql等)進行數據的傳遞,可以將一個關係型數據庫(例如:MySQL、Oracle、Postgres等)中的數據導進到Hadoop的H

原创 正則表達式---python

正則表達式相關注解 開源中國提供的正則表達式測試工具 正則表達式常用模塊 模式 描述 \w 匹配字母、數字及下劃線 \W 匹配不是字母、數字及下劃線的字符 \s 匹配任意空白字符,等價於[\t\n\r\f]

原创 Numpy--利用python做數據分析

Numpy簡介 下面的展示方式可能不一樣 有在ipython環境下和Jupyter環境下(選擇工作中常用的分享) NumPy的主要對象是同種元素的多維數組。這是一個所有的元素都是一種類型、通過一個正整數元組索引的元素表格(通常是元素

原创 Flume---大數據協作框架

flume是什麼 Apache Flume是一個分佈式的、可靠的、易用的系統,可以有效地將來自很多不同源系統的大量日誌數據收集、彙總或者轉移到一個數據中心存儲。 Apache Flume的作用不僅限於日誌彙總,因爲數據源是可以自定義的,

原创 python中@classmethod和@staticmethod的理解

https://eclipsesv.com/2017/08/03/關於python的@classmethod和@staticmethod的理解/ 一直對python中@classmethod和@staticmethod的用法和區別不是