原创 python爬蟲筆記(二)爬蟲原理
爬蟲:請求網站並提取數據的自動化程序瀏覽器F12的html代碼中的信息就是爬取的目標request到response瀏覽器發送消息(請求)到服務器,這個過程叫HTTP Request服務器返回瀏覽器信息,HTTP Response瀏覽器處
原创 統計學知識——標準與標準誤差
by:ysuncn(歡迎轉載,請註明原創信息) 什麼是標準差(standard deviation)呢?根據國際標準化組織(ISO)的定義:標準差σ是方差σ2的正平方根;而方差是隨機變量期望的二次偏差的期望,這
原创 DA0205 數據合併(多表查詢)——數據分析之EXCEL
數據合併數據合併一般是指對擁有關聯ID的多表匹配合並(SQL INNER JOIN)1.表格數據匹配合並 複製column——輸入=vlookup(A2,sheet2!$A$2:$D$99,4,0)Vlookup是查找函數,公式是vloo
原创 DA0206 數據計算——數據分析之EXCEL
數據計算1. 數據標準化(規範化歸一化)歸一化:1)把數據變成(0,1)之間的小數2)把有量綱表達式變成無量綱表達式歸一化算法有:1.線性轉換 y=(x-MinValue)/(MaxValue-MinValue)(主要)2.對數函
原创 DA0204 數據抽取——數據分析之EXCEL
數據抽取 1. 字段拆分 解釋:通過拆分身份證號獲取第m—第n位,去頂生日/籍貫等信息方案一:選項卡——數據——分列——方案二:函數選取:=LEFT(O2,FIND("k",O2,1))Excel的left、right、mid函數
原创 Python爬蟲筆記(三)Urllib庫的使用
簡述urllib庫是Python自帶庫,作爲最基本的請求庫,提供了一系列用於操作URL的功能。urllib.request 向頁面發送請求並返回,聯繫之前的get和post兩種請求方式 urlopen 實現對目標
原创 DA0201 數據儲用規範化——EXCEL數據分析前置
一、 數據格式(數據規範化) (數據規範化不是數據標準化,是excel的數據格式等內容的前置警示)1. 不要合併單元格!2. 合計、總計另起一行,不要放在後面(最好不要合計,另有彙總表/數據透視圖處理彙總信息)3.
原创 DA0203 數據清洗——數據分析之EXCEL
數據清洗 1. 重複數據處理 選項卡:數據——數據工具——刪除重複項2. 缺失數據處理1)尋找空白值 選項卡:開始——編輯——查找和選擇——定位條件——空值快捷: Ctrl + G ——定位條件——空值Null等值,使用C
原创 Python爬蟲學習筆記(一)環境配置與包的安裝
Window版1