原创 sqoop抽數數據量少於原表情況的可能原因

今天用sqoop從Oracle數據庫抽數,做數據覈對的時候發現抽到的數據量少於Oracle數據中的數據量, 後來檢查發現是因爲抽數語句中的split-by field 關鍵字不是主鍵,有空值, 一般來數split-by field 字段都

原创 sqoop 從Oracle抽數 出現 ORA-00904 xxx invalid identifier

對於Oracle 出現ORA-00904 xxx invalid identifier 一般來數是因爲 數據類型不匹配引起的, 我在工作中出現此問題是抽數sql將number類型的id放在了最後做字符拼接,像這樣 然後把抽數ID字段的順

原创 設置seaborn的畫布大小

最近在使用seaborn做可視化,記錄一下如何改變seaborn的畫布大小。 默認是這樣的  sns.stripplot(x=d2['年齡'], y=d2['AST'], data=d2, jitter=True) 修改之後 

原创 autoit info frozen解決之法

最近在做桌面客戶端模擬操作瞭解到有一款autoit軟件,配合適用的是window info ,但是這是默認frozen的,如圖 修改options 勾選freeze 就可如圖

原创 autoit 輸入過程中切換輸入法

在測試客戶端的過程中有時需要切換輸入法 ,網上給的不是很嚴謹會報錯,究竟如何寫呢? 這樣寫(不要跨行): $hWnd = WinGetHandle("[ACTIVE]");$hWnd 爲目標窗口句柄,這裏設置的是當前活動窗口 $ret

原创 用vscode寫python請三思

今天用vscode寫爬蟲,爬一個不是很難的頁面,但是使用vscode調試總是出錯。 先說說我的情況,就是打印爬取內容,打印的內容不全,我以爲爬蟲斷了,但是程序跑起來沒有問題,目標網站也沒有使用js或ajax然而就是無法打印完整內容,我百思

原创 python標準庫之os操作

Python Os模塊--路徑、文件、系統命令等操作 os模塊包含普遍的操作系統功能。 注意:函數參數path是文件或目錄的路徑,filename是文件的路徑,dirname是目錄的路徑,路徑可以是相對路徑,也可絕對路徑 常見或重要的函數

原创 postgresql 11.2 下載

最近開始搞postgresql 從官網下載發現比較慢 所以在此分享百度網盤下載鏈接: 鏈接:https://pan.baidu.com/s/10OFa29URP8fTRgjC6kPljw  提取碼:laug     

原创 numpy之random小記

數據分析也斷斷續續學了很多,一直覺得numpy.random 有點模糊,今天來補一下。   隨機抽樣 (numpy.random) 簡單的隨機數據 rand(d0, d1, ..., dn) 隨機值 >>> np.random.r

原创 python之時間操作利器模塊----arrow

可能你已經被datetime和time模塊繞暈 不如來看看arrow有多麼好 獲取當前時間    arrow.utcnow(), arrow.now() In [15]: t = arrow.now() In [17]: t.datet

原创 數據分析作圖神器---plotly_express

Plotly Express 入門之路 Plotly Express 是一個新的高級 Python 可視化庫:它是 Plotly.py 的高級封裝,它爲複雜的圖表提供了一個簡單的語法。  受 Seaborn 和 ggplot2 的啓發,它

原创 mongodb操作小記

mongodb也是一種數據庫,數據庫都有增刪改查 1. 增 use dbname db.collectionname.insert({}) # document是json格式的數據 db.collectionname.insert(do

原创 Windows10 下安裝spark單機版

如同往常一樣安裝spark也出了很多問題,好在一上午終於搞定 spark 基於java,所以首先檢查java是否安裝,注意java安裝路徑最好不要出現空格,雖然網上也有解決方法,但是我的機器上沒有解決問題。 一 檢查java安裝    

原创 Jupyter notebook 代碼自動補全

進入命令行環境 安裝nbextensions pip install --user jupyter_contrib_nbextensions -i https://pypi.mirrors.ustc.edu.cn/simple jupy

原创 anaconda裝好後,cmd不能使用conda等命令的解決

windows下安裝好anaconda後,在cmd中使用conda命令會出現: 'conda' 不是內部或外部命令,也不是可運行的程序或批處理文件 把anaconda目錄下的scripts添加到環境變量中就行了。