原创 python數據可視化之如何用matplotlib畫出漂亮美觀的趨勢圖 | 圖例、座標、日期處理、像素、畫布大小、分辨率、點標籤等問題

這幾天完成了一個小項目,matplotlib畫出的圖像總是不理想,很多細節需要調節,譬如橫座標的控制、圖例的控制、周邊留白的控制還有圖片大小尺寸的控制,都需要根據業務需求來調整。 下面我一步步來說明怎麼控制畫圖的參數 1. 最

原创 文本分類方向的一點探索 | 解讀自然語言處理技術之文本向量和詞向量

最近在做文本分類的項目,在這個方向上有點自己的思考,總結出來,希望對大家有幫助。 研究意義 我們身邊每天所產生的信息量正在迅猛增加,而這些信息基本都是非結構化的海量文本。 人類可以輕鬆處理與感知非結構化文本,但機器顯然很難理解。

原创 python 數據分析、數據處理之超實用的pandas | 表關聯連接、新增添加一行記錄、空值判斷、數據讀寫、按行輸出等

我在博客上分享的都是在實際項目中遇到的棘手的並且解決的問題,整理出來當作知識總結,希望也能幫助到需要的人。 一、dataframe 的merge方法實現千萬條數據的關聯 這裏的temp1是特徵數據,有幾千萬條,temp2是樣本標

原创 shell 後臺執行 | 命令分解、hadoop任務

文章目錄一.後臺執行二.後臺查看1. 查看本地進程2. 查看hadoop進程三.終止進程1.終止本地進程 `kill -9 pid`2.終止hadoop進程 `hadoop job -kill jobid` 一.後臺執行 noh