原创 奇淫巧技

pyforest 參考地址 安裝之後只要導入 pyforest,就可以直接在代碼中引用所有主流的數據分析庫,用到什麼加載什麼,不會加載多餘的庫。 在 Jupyter 或者 Jupyterlab 不需要顯式的調用,shell中需要導入。

原创 FpGrowth

FpGrowth算法的基本思想是利用樹結構對事務進行壓縮,同時保留了事務中屬性之間的關係。這種算法不會產生候選項集,而採用增長頻繁集的方法進行數據挖掘。

原创 知識庫——SQL

查看已啓動服務器 ps -ef | grep mysqld 管理數據庫 mysql -u root -p use mysql; FLUSH PRIVILEGES; SHOW DATABASES; // 查看所有數據

原创 DataFrame loc/iloc

df[] - 選擇列 df[]一般用於選擇列,也可以選擇行,默認選擇列,[]中寫列名(所以一般數據columns都會單獨制定,不會用默認數字列名,以免和index衝突) 單選列爲Series,print結果爲Series格式 多選列爲Da

原创 書寫規範 PEP8

參考:https://blog.csdn.net/ratsniper/article/details/78954852#function-and-method-arguments-函數和方法參數 不要爲了遵守PEP約定而破壞兼容性! 幾個

原创 Blastdb

安裝 在ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/中下載最新的BLAST可執行程序 wget ftp://ftp.ncbi.nlm.nih.gov/blast/

原创 pycharm設置及快捷鍵

設置全參考 配色方案 http://www.easycolor.cc/intelliJidea/list.html 搜索Ergo 主題包是.jar格式,直接打開Pycharm,點擊:File --> Import Setting,在地址區

原创 查看文件數量和大小

查看文件數量 wc [-lwm] 參數 -l:統計行 -w:統計字(英一個字被定義爲由空白、跳格或換行字符分隔的字符串) -m:統計字符,不能與"-c"一起使用 -c:統計字節 -L:打印最長行的長度 代表run2011.sh這個文件

原创 知識點——java

Java的專業術語: SDK(Software Development Kit):軟件開發工具包,在Java中用於描述1998年~2006年之間的JDK。sdk是一個大的概念,比如開發安卓應用,你需要安卓開發工具包,叫 android s

原创 解壓縮模塊 zipfile

zipfile 一、創建一個ZipFile對象,表示一個zip文件 class zipfile.ZipFile(file[, mode[, compression[, allowZip64]]]) 參數file表示文件的路徑或類文件對象

原创 java實操

打印數組 import java.util.*; class Test { public static void main(String[] args) { int[] grades = new int[4];

原创 python ftplib模塊下載FTP文件

from ftplib import FTP # 加載ftp模塊 ftp = FTP() # 獲取FTP對象 ftp.set_debuglevel(2) # 打開調試級別2,顯示詳細

原创 jupyter notebook

無需print()即可讓Jupyter notebook 打印多個結果: from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_n

原创 sublime 快捷鍵及設置

ctrl+shift+d:快速複製光標所在的一整行,並複製到該行之前 ctrl+shift+k:刪除整行 ctrl+/:註釋 ctrl+k,ctrl+1:摺疊所有 ctrl+k,ctrl+0:展開所有 // 修改tab鍵爲4個空格 "t

原创 知識點——Spark

優點:讓計算任務的中間結果可以存儲在內存中,不需要每次都寫入HDFS