原创 【python 列表 】list() 和 中括號[] 的區別

先定義一個列表 ls_src = ['Baidu', 'Alibaba', 'Tenxun', 'Jingdong'] 列表生成式中使用列表 [list(i) for i in ls_src]  列表生成式中使用中括號[] [[i

原创 【python 時間】datetime、time、date

import time import datetime from dateutil.relativedelta import relativedelta import pytz import pandas as pd 國際時間、本地時間

原创 【python小技巧】分塊讀取大文件、讀取數據內容帶引號的文本文件

# ===================== 逐塊讀取文本文件 =========================== nrows = 10 # 只讀取一定行數的數據 chunksize = 4 # 分塊讀取,返回一個可迭代對象Tex

原创 IPython魔法命令

1 粘貼代碼塊: %paste和%cpaste %paste     解決複製代碼到Ipython解釋器時出些的縮進錯誤問題 %cpaste    打開一個交互式多行輸入提示,可以在這個提示下粘貼並執行一個或多個代碼塊   2 執行外部代

原创 hive筆記(持續更新)

學習和使用hive過程中的一些筆記、心得   hive中變量和屬性命名空間 命名空間 使用權限 描述 hivevar 可讀/可寫 hive v0.8.0以及之後版本,用戶自定義變量 hiveconf 可讀/可寫 hive相關的配置屬性 s

原创 【python pandas】重塑、透視、交叉:stack,unstack,pivot,pivot_table,crosstab

使用多層索引進行重塑 stack、unstack df = pd.DataFrame(np.arange(6).reshape((2,3)), index=pd.Index(['ohio','col

原创 【數據預處理 標準化】StandardScaler中的std參數和pandas中的std計算方式上的區別

StandardScaler把所有數據歸一到均值爲0方差爲1的分佈中 。適用於沒有明顯邊界的情況;有可能存在極端數據值。 計算公式:          其中S標準差的計算方式是 numpy中的std方法,可以查看一下StandardSca

原创 讀取json,做日誌解析

# -*- coding: utf-8 -*- """ Created on Fri Feb 15 14:38:09 2019 @author: yangshijin """ import pandas as pd import nu

原创 【python】創建路徑、excel同時寫入多個sheet表

創建路徑  import os def create_path(pre_path): """創建目錄 eg:'D:/pingfen/result' """ folder = os.path.exi

原创 【python 面試題】如何從數組中找出滿足a+b=c+d的兩個數對

""" 給定一個數組,找出數組中是否有兩個數對(a,b)和(c,d),使得a+b=c+d,其中,a、b、c、d是不同的元素。 如果是多個答案,打印任意一個即可。 例如給定數組[3,4,7,10,20,9,8],可以找到連個數組(3,8)

原创 【python 正則】

查找 findall, match, search import re def re_match_common(pattern, string, mathod, flags = re.I|re.M): """正則查找通用函數

原创 【python 面試題】如何從一堆車票信息中找到旅程(dict)

# 如何從車票中找到旅程 def print_result(inputs): # 用來儲存inputs的鍵與值調換之後的信息 reverse_input = dict() for k,v in inputs.it

原创 【python 可視化】2 seaborn筆記

Seaborn 基於matplotlib且數據結構與pandas統一的統計製圖庫 功能: 計算多變量間關係的面向數據集接口 可視化類別變量的觀測與統計 可視化單變量或多變量分佈並與其子數據集比較 控制線性迴歸的不同因變量並進行參數估計與作

原创 【概念】Hadoop、MapReduce、HBase

Hadoop 和 MapReduce                Hadoop 生態系統就是爲了處理大數據集而產生的一個合乎成本效益的解決方案。Hadoop 實現了一個特別的計算模型,也就是MapReduce,其可以將計算任務分割成多個

原创 【python 筆記】高階函數 map、reduce、filter

        高階函數是在Python中一個非常有用的功能函數,所謂高階函數就是一個函數可以用來接收另一個函數作爲參數,這樣的函數叫做高階函數。常用的python內置高階函數爲:map、reduce、filter 這三個(個人用得比較多