原创 模型過擬合與欠擬合

機器學習中,經常討論到的一個話題就是泛化能力。泛化能力的強弱決定了模型的好壞,而影響泛化能力的則是模型的擬合問題。 欠擬合 機器學習的目的並不是爲了對訓練集的做出正確的預測,而是對沒有在訓練集中出現的數據進行正確的預測。但是對訓練集之外

原创 NLP資源清單

  NLP全稱是Natural Language Processing的簡稱,也叫自然語言處理,屬於AI的一個分支,這是一個比較難的分支,但是不用怕,擁有有效資源並步步積累,相信你一定會成爲nlp達人。   ◆  ◆  ◆優  秀  書 

原创 離散型特徵的處理方法

機器學習中,常常在數據集中會遇到一些離散特徵,對於這些離散特徵相比連續特徵要用不同的處理方法,常見的方法有LabelEncoder與OneHotEncoder。 LabelEncoder LabelEncoder用來對離散型分類型特徵值

原创 數據標準化的方法

機器學習中,最重要的就是數據預處理了。而當不同特徵之間的值差距較大,分佈很離散,那麼可能就需要統一這些數據的量綱,以便後期的處理。所以,今天帶來的是一些數據標準化處理的方法。 主要的標準化方法先列出如下: StandardScaler M

原创 分類結果的評估方法

模型評估可以用在模型類型、調節參數及特徵組合中。通過模型評估來估計訓練得到的模型對於非樣本數據的泛化能力,並且還需要恰當的模型評估度量手段來衡量模型的性能表現。 通常在迴歸問題可以採用平均絕對誤差(Mean Absolute Error)

原创 學習樸素貝葉斯算法的5個簡單步驟

  貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理爲基礎,故統稱爲貝葉斯分類。 而樸素貝葉斯分類是貝葉斯分類中最簡單,也是常見的一種分類方法。 本文將通過6個步驟帶領你學習樸素貝葉斯算法。   Step1 什麼是樸素貝葉斯算法?

原创 python 文本分析

自從認識了python這門語言,所有的事情好像變得容易了,作爲小白,逗汁兒今天就爲大家總結一下python的文本處理的一些小方法。 話不多說,代碼擼起來。 ——python大小寫字符互換 在進行大小寫互換時,常用到的方法有4種,upper

原创 機器學習:訓練集與測試集的劃分

機器學習中有一個問題是不可避免的,那就是劃分測試集和訓練集。爲什麼要這麼做呢,當然是提高模型的泛化能力,防止出現過擬合,並且可以尋找最優調節參數。訓練集用於訓練模型,測試集則是對訓練好的模型進行評估的數據集。通常來說,訓練集和測試集是不會

原创 python微信聊天機器人

上回逗汁兒的朋友豆苗爲了哄女朋友開心,爬了一堆的笑話讓我來給處理一下,今天這貨又來找我了,真是無事不登三寶殿啊,事情是這樣的。 豆苗:逗汁兒啊,上次你的方法很不錯,讓我節約了很多時間,爲了感謝你,請你吃個飯啊。 逗汁兒:算你有良心。 吃飯

原创 Numpy中構造數據的random類

在日常工作中,當遇到一個問題時,總是先簡化它,尋找某一種方法來解決它。如果不使用原數據集,就需要構造數據來驗證該方法。大家應該也知道numpy中random類有很多方法可以構造數據,但是當談論到具體某一種方法的詳細說明可能就會含糊不清了,

原创 十分鐘學習正則表達式|上手python re模塊

請給我10分鐘,我有把握讓你10分鐘上手正則表達式。 用一句通俗的語言解釋:正則表達式就是記錄文本規則的代碼。 正則表達式之所以難學,是因爲它有大量的符號,每個符號的意義和用法又是不一樣的,但是隻要掌握了用法,正則表達式也可以很友好。 本

原创 Numpy的排序功能

今天介紹的是numpy中排序的一些函數,如下所示: numpy.sort(ndarray.sort與之類似) numpy.sort_complex numpy.argsort numpy.lexsort numpy.searchsort

原创 關聯規則挖掘

關聯規則是數據挖掘中的一個重要分支,其主要研究目的是從各種數據集中發現模式,相關性,關聯或因果結構。 關聯規則有形如X→YX→Y 的蘊含表達式,其中X和Y是不相交的項集,即X∩Y=∅X∩Y=∅。   關聯規則的三個指標   ·Suppor

原创 爬蟲之字體反爬(二)貓眼票房

今天爲大家帶來的是字體反爬的另一個案例,貓眼票房。具體來看下面的分析與代碼。 首先參考的網站:https://piaofang.maoyan.com/?ver=normal 從網站中可以觀察到,它的反爬是這樣的:  再從網頁源碼中觀察

原创 爬蟲之字體反爬(三)汽車之家

今天爲大家帶來的是字體反爬的另一個案例,貓眼票房。與之前不同的是,這裏是對漢字的處理。具體來看下面的分析與代碼。 首先參考的網站:https://club.autohome.com.cn/bbs/thread/1f05b4da444843