台部落这么多圆圈圈

清洗的特點： 1.數據非完美，數據分析之前需要對數據進行清洗 2.數據清洗最耗時 3.清洗後的數據質量最關鍵，決定分析的準確性 4.唯一提高數據質量的方法所用工具： numpy和pandas是最主流的工具

2020-07-05 17:06:06

數據清洗之文件操作讀取：csv文件實用read_csv方法讀寫，結果爲dataframe格式讀寫csv文件，文件名稱用英文參數較多，可以自行控制，很多使用默認參數讀csv，常用編碼utf-8,gbk,gbk2312,gb1803

2020-07-05 17:06:06

#每次運行hbase shell之前一定要到進入/usr/local/Cellar/hbase/1.3.5/bin 目錄下，運行./start-hbase.sh，進行啓動。在終端hbase shell #新建表 hbase(ma

2020-07-05 17:06:06

新建employees表 CREATE TABLE IF NOT EXISTS mydb.employees ( name STRING COMMENT 'Employee name', salary

2020-07-05 17:06:06

現在有個需求是：從字符串中找到電話號碼，類似於： abcd19090909091 或者hello 9089890,找到19090909090和9089890 網上搜索好久，大部分都是數字部分在字符串的前面。在後面的如何處理呢，想到

2020-07-05 17:05:55

awk對比文本如下所示，假如文本如下，一共三列，第一列表示水果的名稱，第二列表示英文表示，對於a中的第三列表示合格的數量，b中的第三列表示不合格的數量，現在的需求就是將同一水果的合格數量和不合格數量放到一個文本中 (base)

2020-04-28 09:06:08

對於不同批次檢出出的水果數量累加 cat a.txt 蘋果 Apple 10 梨 pear 8 檸檬 lemon 4 梨 pear 8 桃子 peach 11 梨 pear 10 蘋果 Apple

2020-04-28 09:06:08

第一次聽到要搭建隧道，第一反應，是啥啥啥，隧道？？想着可能和尋常登陸遠程一樣，用SecureCRT，結果不行，找了好幾個可以搭建隧道的，都沒有折騰成功，那就回歸到起點吧，看直接在命令行不行，搜索得到可以這樣寫 ssh -p 搭建

2020-03-29 00:50:27

dumps和loads 比如現有一個字典， x = {'name':'hello','tell':'world’} 此時y是個字符串 y = json.dumps(x) '{"name": "hello", "tell": "

2020-02-28 00:58:34

對iloc和loc的不同，總是模棱兩可，下面通過測試對比一下 import pandas as pd import os import numpy as np 設置文件夾 os.chdir("/Users/XXX/Documen

2020-02-26 09:01:09

先建個文件夾 (base) localhost:~ XXX$ hadoop fs -mkdir /corpora 2020-01-13 09:47:44,788 WARN util.NativeCodeLoader: Unable

2020-02-24 01:46:14

1.排序函數 sort函數：從小到大進行排序 2.數據的搜索 argsort函數：返回的是數據中從小到大的索引值。 s= np.array([1,2,3,4,3,1,2,2,4,6,7,2,4,8,4,5]) np.sort(s) #升

2020-02-24 01:46:14

安裝hadoop Hadoop的搭建有三種方式，本文章安裝的是單機版單機版，適合開發調試；僞分佈式版，適合模擬集羣學習；完全分佈式，生產使用的模式安裝步驟：修改主機名 (base) localhost:~ XXX$ su

2020-02-24 01:46:14

笛卡爾積：cross join 笛卡爾積是將兩個表的任一記錄相互組合，如果A有m條記錄，B有n條記錄，那麼通過笛卡爾積產生的結果就會有m*n條記錄。產生迪卡爾積有三種情況： select * from A cross join

2020-02-24 01:46:14

新的開端 2020是個不平凡的一年，轉行到數據分析部門，穩妥妥一枚小白老生常談，好好學習，天天向上記錄前進的步伐，保持上進的心

2020-02-24 01:46:14