原创 20200318_抓取51job招聘數據存數據庫

import pandas as pd import requests from lxml import etree import chardet import numpy as np #職位名稱 zwmc=[] #公司名稱 g

原创 20200317_利用神經網絡預測貸款率

import pandas as pd # 忽略彈出的warnings import warnings warnings.filterwarnings('ignore') text=pd.read_excel('data/

原创 wireshark未響應

公司任務,需要抓包,但是一開始就遇到了一個問題,就是wireshark,畢竟也是第一次用(其實也不是,上學的時候用過,主要玩上了,沒聽,嘻嘻) 一上來就卡死,奔潰,看了好多大佬的,要改這改哪,一直不好,也是偶然,我吧有道詞典關了,

原创 隨機森林案例一:宮頸癌預測

import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib as mpl from sklearn import

原创 機器學習十大經典算法——隨機森林

前言:陸陸續續已經更新到集成學習了,再有三四期這個系列也就結束了,慢慢的發現博客就是爲自己寫的,爲的博客有點高產,主要是一些接的單子,主要是爲了方便下次接單,感覺最近學的有點迷茫了,走人工智能的話要高學歷,走大數據開發又要學hadoop這

原创 機器學習十大經典算法——決策樹

1:什麼是決策樹 1.2官話: 決策樹(Decision Tree)是在已知各種情況發生概率的基礎上,通過構建決策樹來進行分析的一種方式,是一種直觀應用概率分析的一種圖解法 1.2通俗 通過一個案例來解釋吧,下圖是一張用戶是否能進行債務償

原创 20200223——起點文學免費小說爬取

這個單子爬取的是起點文學的免費小說,最開始由於只傳入兩個參數,我就手動了,結果坑參了,只要手動量大於50的一定要寫代碼完成!!!!!!!!! from lxml import etree import requests impo

原创 20200216_re數據處理

這個單子因爲時間以及在家的緣故,做一半就沒時間了,還有就是遇到一個問題,當正則表達式修改之後格式有點看不懂,需要重新append到列表進行循環遍歷輸出,這樣才更好進行再修改 import pandas as pd import

原创 20200221_2_國家非文化遺產爬蟲代碼

這個爬蟲很簡單,可以當一個入手的項目練練 from lxml import etree import json import requests import pandas as pd title=[] type1=[] unit

原创 20200221_2_國家非文化遺產聚類分析

這個需求主要是k-means聚類算法,再加一個優化k-means++算法,這些直接調庫就可以 from sklearn import metrics import warnings warnings.filterwarnings(

原创 百面機器學習——svm基尼係數尋找最優劃分

基尼係數 import numpy as np import matplotlib.pyplot as plt from sklearn import datasets iris = datasets.load_iris()

原创 百面機器學習——什麼是決策樹

什麼是決策樹 import numpy as np import matplotlib.pyplot as plt from sklearn import datasets iris = datasets.load_iris(

原创 百面機器學習——svm使用信息熵尋找最優劃分

使用信息熵尋找最優劃分 import numpy as np import matplotlib.pyplot as plt from sklearn import datasets iris = datasets.load_

原创 機器學習作業班_python實現邏輯迴歸多類分類

編程作業 3 - 多類分類 對於此練習,我們將使用邏輯迴歸來識別手寫數字(0到9)。 我們將擴展我們在練習2中寫的邏輯迴歸的實現,並將其應用於一對一的分類。 讓我們開始加載數據集。 它是在MATLAB的本機格式,所以要加載它在Py

原创 2019119_文本文件處理方式

這是在接單過程中得到的一個好東西,感覺這個包含了所有文本處理的問題和方式,主要通過分析文本進行轉換,學到了好多東西,我覺得現在接單不算是只爲了掙錢而是多練手,多掌握數據分析過程以及多任務處理,我需要的是平臺而不是工作。 NLTK包