原创 學習筆記(01):Python數據清洗實戰-Numpy常用數據結構

清洗的特點: 1.數據非完美,數據分析之前需要對數據進行清洗 2.數據清洗最耗時 3.清洗後的數據質量最關鍵,決定分析的準確性 4.唯一提高數據質量的方法 所用工具: numpy和pandas是最主流的工具    

原创 學習筆記(05):Python數據清洗實戰-csv文件讀寫

數據清洗之文件操作 讀取:csv文件 實用read_csv方法讀寫,結果爲dataframe格式 讀寫csv文件,文件名稱用英文 參數較多,可以自行控制,很多使用默認參數 讀csv,常用編碼utf-8,gbk,gbk2312,gb1803

原创 hbase的簡單應用

#每次運行hbase shell之前一定要到進入/usr/local/Cellar/hbase/1.3.5/bin 目錄下,運行./start-hbase.sh,進行啓動。 在終端hbase shell #新建表 hbase(ma

原创 hive編程指南--hiveQL基本操作

新建employees表 CREATE TABLE IF NOT EXISTS mydb.employees ( name STRING COMMENT 'Employee name', salary

原创 sql取出位於字符串後面的數字

現在有個需求是:從字符串中找到電話號碼,類似於: abcd19090909091 或者hello 9089890,找到19090909090和9089890 網上搜索好久,大部分都是數字部分在字符串的前面。在後面的如何處理呢,想到

原创 利用awk對比並拼接文本

awk對比文本 如下所示,假如文本如下,一共三列,第一列表示水果的名稱,第二列表示英文表示,對於a中的第三列表示合格的數量,b中的第三列表示不合格的數量,現在的需求就是將同一水果的合格數量和不合格數量放到一個文本中 (base)

原创 awk相鄰記錄相加

對於不同批次檢出出的水果數量累加 cat a.txt 蘋果 Apple 10 梨 pear 8 檸檬 lemon 4 梨 pear 8 桃子 peach 11 梨 pear 10 蘋果 Apple

原创 mac電腦搭隧道,連接遠程mysql

第一次聽到要搭建隧道,第一反應,是啥啥啥,隧道?? 想着可能和尋常登陸遠程一樣,用SecureCRT,結果不行,找了好幾個可以搭建隧道的,都沒有折騰成功,那就回歸到起點吧,看直接在命令行不行,搜索得到可以這樣寫 ssh -p 搭建

原创 python中dump、dumps、load、loads的區別

dumps和loads 比如現有一個字典, x = {'name':'hello','tell':'world’} 此時y是個字符串 y = json.dumps(x) '{"name": "hello", "tell": "

原创 iloc和loc的區別

對iloc和loc的不同,總是模棱兩可,下面通過測試對比一下 import pandas as pd import os import numpy as np 設置文件夾 os.chdir("/Users/XXX/Documen

原创 《hadoop數據分析》之hadoop命令

先建個文件夾 (base) localhost:~ XXX$ hadoop fs -mkdir /corpora 2020-01-13 09:47:44,788 WARN util.NativeCodeLoader: Unable

原创 學習筆記(02):Python數據清洗實戰-Numpy常用數據清洗函數

1.排序函數 sort函數:從小到大進行排序 2.數據的搜索 argsort函數:返回的是數據中從小到大的索引值。 s= np.array([1,2,3,4,3,1,2,2,4,6,7,2,4,8,4,5]) np.sort(s)  #升

原创 mac安裝hadoop3.2.1

安裝hadoop Hadoop的搭建有三種方式,本文章安裝的是單機版 單機版,適合開發調試; 僞分佈式版,適合模擬集羣學習; 完全分佈式,生產使用的模式 安裝步驟: 修改主機名 (base) localhost:~ XXX$ su

原创 join的不同用法的總結

笛卡爾積:cross join 笛卡爾積是將兩個表的任一記錄相互組合,如果A有m條記錄,B有n條記錄,那麼通過笛卡爾積產生的結果就會有m*n條記錄。 產生迪卡爾積有三種情況: select * from A cross join

原创 新的開端

新的開端 2020是個不平凡的一年,轉行到數據分析部門,穩妥妥一枚小白 老生常談,好好學習,天天向上 記錄前進的步伐,保持上進的心