原创 機器學習基礎——線性迴歸

線性迴歸簡介        線性迴歸可分爲一元迴歸和多元迴歸,一元迴歸就是隻有一個影響因子,也就是大家熟悉的線性方程,多元迴歸就是有多個影響因子。 一元線性迴歸方程是 簡單來說就是二維平面上的一條直線; 多元線性迴歸方程 從數

原创 Python實現決策樹算法預測

一、概念         決策樹是一種從無次序、無規則的樣本數據集中推理出決策樹表示形式的分類規則方法。決策樹學習的算法通常是一個遞歸地選擇最優特徵,並根據該特徵對訓練數據進行分割,使得各個子數據集有一個最好的分類的過程。    

原创 Pandas透視表

透視表可以根據一個或多個鍵對數據進行聚合,並根據行和列上得分組建將數據分配到各個矩形區域中。在Python和pandas中,也有透視表的使用。 先讀取數據 import pandas as pd import numpy as n

原创 Pandas-DataFrame描述統計函數

測試數據採用豆瓣電影的部分數據 求和 求投票人數的總和 求最值 求最高評分 求評分最高的電影信息 求最低評分 獲取最值索引 先將索引換成字母 中位數和平均數 方差和標準差 方差和標準差可以看出數據的離散程度 相關

原创 Padas DataFrame添加、刪除、異常數據處理操作

原始數據 增加、刪除 添加一行 # 先創建一行的series數據 dic = { '名字':'復仇者聯盟3', '投票人數':4565142, '類型':'劇情/科幻', '產地':'美國',

原创 Windows安裝Tesseract-OCR與python擴展包實現提取圖片文字

windows 10安裝Tesseract-OCR 下載安裝包 https://digi.bib.uni-mannheim.de/tesseract/ 下載後是一個exe安裝包,直接雙擊安裝即可,安裝完成之後,配置一下環境變量,編

原创 pandas讀csv出現 'utf-8' codec can't decode byte 0xd5 in position 0: invalid continuation byte

在使用Pandas讀取csv文件的時候,很可能出現編碼不對的情況。 我的代碼是 import pandas as pd import numpy as np df = pd.read_csv('RFM_TRAD_FLOW.csv'

原创 Scrapy settings相關配置

在settings裏可以自定義配置scrapy組件 #項目名稱, BOT_NAME = 'downloadware' # 爬蟲存儲的文件路徑 SPIDER_MODULES = ['downloadware.spiders']

原创 python知識點(二)

python的三大神器: 裝飾器 迭代器 生成器 一、裝飾器 裝飾器 decorator,是對函數的一種包裝。 它能使函數的功能得到擴充,而同時不用修改函數本身的代碼。 它能夠增加函數執行前、執行後的行爲,而不需對調用函數的代

原创 Ubuntu下使用Redis

1、安裝 redis sudo apt-get update sudo apt-get install redis-server 啓動 : redis-server 開啓客戶端 :redis-cli 切換數據庫select n 查

原创 python與MongoDB交互

mongodb是一種非關係型數據庫,在實際開發過程中有非常大的用處 一、安裝python擴展 pip install pymongo 二、python與MongoDB交互 第一次連接的時候如果數據庫或集合不存在,會自動創建 im

原创 js控制頁面div盒子移動

html代碼 簡單地設置一個寬100px,高100px,背景色爲紅色的div盒子 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <me

原创 python爬蟲框架BS4

bs4 全名 BeautifulSoup,是編寫 python 爬蟲、解析網頁的常用庫之一。 一、安裝 pip install bs4 二、find_all() 1、初始化,創建BeautifulSoup實例 from bs4 i

原创 python爬蟲PyQuery包

PyQuery庫是爬蟲經常使用的python第三方庫,也是一個非常強大又靈活的網頁解析庫,PyQuery 是 Python 仿照 jQuery 的嚴格實現。PyQuery的語法與 jQuery 幾乎完全相同,所以只要會jQuery

原创 Pandas DataFrame合併concat、merge,分組GroupBy

合併 1、concat合併 先創建兩個dataFrame import pandas as pd import numpy as np d1 = pd.DataFrame(np.random.randint(0, 50, (3,4