原创 pandas數據處理之 標籤列字符轉數字

機器學習中,當我們在進行數據預處理的時候,對於標籤列非字符的數據,我們往往需要將其轉換成字符,因爲有的算法可能不支持非數字類型來做特徵。 那麼怎麼快捷地來着這個轉換呢,請看我的示例: 1.構建測試數據 import pandas

原创 愛詞霸 每日一詞爬取

要爬取的目標網站是金山詞霸的每日一句欄目 本人熱衷英語學習,同時覺得其使用的圖片以後可以當做素材,作爲一個什麼限制也沒有的基礎網站,學習爬蟲的初學者拿這個網站試手就很好。 本次爬蟲所要爬取的內容包括每日一句的英文,翻譯,以及對應的

原创 CDSW安裝遇到的問題

CDSW的安裝手冊請參考我的另一篇文章 CDSW安裝手冊 1.域名解析的問題。 配置需要仔細仔細再仔細,否則dns解析不了是無法訪問CDSW工作臺的。dns解析的命令一定要驗證,等待cdsw啓動的時候也應當驗證下配置是否ok。 2

原创 pandas實現in和 not in

pandas中經常會需要對某列做一些篩選,比如篩選某列裏的不包含某些值的行,類似sql裏的in和not in功能,那麼怎麼實現呢。 import pandas as pd columns = ['name','country']

原创 機器學習入門

一直以來想要學習機器學習。 想要入門機器學習,學習的方式大多是從網上觀看相關的視頻和書籍。 看的視頻,怎麼說呢,講的很基礎,但是沒有清晰的思維方式,看了一段視頻之後不知道爲什麼這麼做的邏輯,沒有系統的架構。 看書就更是如此了,書上

原创 數據預處理 數據歸一化之 sklearn.preprocessing

之所以要數據歸一化是因爲,不同評價指標往往具有不同的量綱,數值間的差距可能很大,不進行處理會影響到分析的結果,同時也不利於多個指標在同一圖標內的展示。 數據規範化對於基於距離的算法尤爲重要。 此處的數據歸一化使用的是sklearn

原创 No numeric types to aggregate報錯

pandas使用pivote_table時,報錯 報這個錯多半是因爲你指定的列裏不能執行所對應的聚合操作,你所指定的數字列裏包含着字符串或者其他的數據類型 要想解決此報錯主要就是檢查你所指定的列內,此處我使用的是isinstanc

原创 關聯分析(1)

基本方法 關聯分析的目標包括兩項:發現頻繁項集和發現關聯規則。 首先需要找到頻繁相機,然後才能獲得關聯規則。 關聯分析的主要目的是尋找頻繁項集,如果通過暴力搜索,運算量會呈幾何性增長。爲了減少頻繁項集的計算量,可以採用Aprior

原创 書單

1.決戰大數據(升級版):大數據的關鍵思考 車品覺 2.數據即未來 大數據的王者之道 美 布瑞恩戈德西 陳斌譯 3.數據分析與機器學習實戰 python3 2018年8月第一版 龍馬高新教育 4.機器學習python實踐

原创 CDSW安裝手冊

CDSW是cloudera的數據科學工作臺 安裝的注意事項 1.CDH的版本需要在5.13及以後的版本。 2.需要給CDSW的主節點分配一塊不少於100G的硬盤空間。 3.需要在CDH的主節點及CDSW的主節點上配置泛域名解析。

原创 python動態調用函數

舉例 文件 windows_params 包含兩個方法,兩個參數 a = 1 b = 2 def count(): print('count') def get(): print('get') 然後來調用啦

原创 python開發環境安裝

安裝anaconda Anaconda下載 下載python 3.X版本 之後一鍵安裝即可。 安裝 jupyter notebook conda install jupyter 運行cmd,運行jupyter notebo

原创 pycharm 破解

因爲原來的破解補丁下載鏈接失效了,今天來更新下新的補丁。 首先感那些無私製作並免費提供補丁的人,世界因他們而光明!!! 同時,我也更新下教程,詳細說明下激活前需要注意的一些細節,希望同學們少走彎路,有一個好的開始!!!激活前準備工作

原创 python學習入門

python基礎 1.啓動jupyter notebook 2.在桌面上新建名爲jupyter的文件夾,進入文件夾,新建python3文件,修改文件名爲python_learning 然後開始我們的編碼 3.python的基本內容 數

原创 django跨域設置

前後端開發的時候需要設置下跨域訪問,設置如下 setting文件裏添加 CORS_ALLOW_CREDENTIALS = True CORS_ORIGIN_ALLOW_ALL = True CORS_ORIGIN_WHITELIST