原创 pandas數據分組運算:groupby

groupby:pandas中最爲常用的分組函數 (1)、按列分組 import pandas as pd import numpy as np df = DataFrame({'key1':['a','a','b','b','a

原创 python的continue、break和pass語句

1、continue 語句用於for和while循環中,它用來跳過當前循環的剩餘語句,然後進行下一輪循環。 它可以理解爲刪除效果,可刪除滿足循環條件下的某些不需要的成分。 var = 9 while var > 0: var =

原创 【轉載】spark 算子介紹及常見問題

scala基礎知識 http://www.aboutyun.com/thread-19652-1-1.html scala從入門到精通 https://www.kancloud.cn/kancloud/scala-quickstart/5

原创 pyspark的intellij idea 環境搭建

0.pyspark的windows7環境搭建 參考pyspark的windows7環境搭建,搭建windows7的環境 1.安裝Maven,配置環境變量 Maven入門 (1).從Maven官網下載地址下載zip格式的軟件包apache-

原创 pyspark的windows7環境搭建

安裝步驟 1.安裝java,這裏選擇version 1.8.,配置環境變量JAVA_HOME,PATH,CLASSPATH 參考鏈接:Java JDK8下載地址,Java安裝及環境配置 注意java的版本不能太高,否則後面java安裝會報

原创 pandas 之 DataFrame篩選數據

import pandas as pd import numpy as np df = pd.DataFrame(np.random.randn(6, 4), columns=list('abcd')) df        a      

原创 Hive查詢結果的幾種保存方法

1. 保存到本地調用hive的標準輸出,將查詢結果寫到指定的文件中hive -e "select user, login_timestamp from user_login" > /tmp/out.txt 或者$ hive -f fil

原创 git 之 新建分支、刪除分支、合併分支、同步分支、分支衝突

新建分支:git branch                                           #查看本地所有分支git checkout -b <branch name>        #新建分支刪除分支:1. 刪除

原创 Python 之 argparse

argparse:python標準庫中的命令行解析模塊,顧名思義主要用於解析命令行參數定位參數import argparse parser = argparse.ArgumentParser() parser.add_argument("

原创 jupyter notebook調試流程

1.在每個模塊化的Cell裏編寫代碼,單步調試,反覆論證;2.最終調通程序後,點擊重置符號Restart kernel,按順序最後過一遍程序,達到重新編號同時檢驗代碼先後順序的作用;3.最後把所有代碼整理,

原创 Hive查詢語言(HiveQL)

hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供完整的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行運行。其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapRedu

原创 shell 比較符號

基本的if條件命令選項有: -eq —比較兩個參數是否相等(例如,if [ 2 –eq 5 ])-ne —比較兩個參數是否不相等-lt —參數1是否小於參數2-le —參數1是否小於等於參數2-gt —參數

原创 Hive查看table在HDFS上的存儲路徑

1. 啓動hive$ hive2. 查看table的相關信息hive>show databases; hive>use databasename; hive>show create table tablen

原创 運行.sh文件提示‘\r’ command not found

基於 DOS/Windows 的文件在每一行末尾有一個 CR(回車)和 LF(換行),而 UNIX 文本只有一個換行,即win每行結尾爲\r\n,而linux只有一個\n。如果win下的文檔上傳到linux

原创 shell 之 getopts

shell中getopts用於獲取用戶在命令下的參數,然後根據參數進行不同的執行。getopts配合case進行操作時有兩個隱含變量:一個是OPTARG,用來取當前選項的值;另外一個是OPTIND,代表當前選項在參數列表中的位移,OPTI