原创 python爬蟲筆記(二)爬蟲原理

爬蟲:請求網站並提取數據的自動化程序瀏覽器F12的html代碼中的信息就是爬取的目標request到response瀏覽器發送消息(請求)到服務器,這個過程叫HTTP Request服務器返回瀏覽器信息,HTTP Response瀏覽器處

原创 統計學知識——標準與標準誤差

by:ysuncn(歡迎轉載,請註明原創信息)               什麼是標準差(standard deviation)呢?根據國際標準化組織(ISO)的定義:標準差σ是方差σ2的正平方根;而方差是隨機變量期望的二次偏差的期望,這

原创 DA0205 數據合併(多表查詢)——數據分析之EXCEL

數據合併數據合併一般是指對擁有關聯ID的多表匹配合並(SQL INNER JOIN)1.表格數據匹配合並 複製column——輸入=vlookup(A2,sheet2!$A$2:$D$99,4,0)Vlookup是查找函數,公式是vloo

原创 DA0206 數據計算——數據分析之EXCEL

 數據計算1.    數據標準化(規範化歸一化)歸一化:1)把數據變成(0,1)之間的小數2)把有量綱表達式變成無量綱表達式歸一化算法有:1.線性轉換 y=(x-MinValue)/(MaxValue-MinValue)(主要)2.對數函

原创 DA0204 數據抽取——數據分析之EXCEL

數據抽取 1.    字段拆分  解釋:通過拆分身份證號獲取第m—第n位,去頂生日/籍貫等信息方案一:選項卡——數據——分列——方案二:函數選取:=LEFT(O2,FIND("k",O2,1))Excel的left、right、mid函數

原创 Python爬蟲筆記(三)Urllib庫的使用

簡述urllib庫是Python自帶庫,作爲最基本的請求庫,提供了一系列用於操作URL的功能。urllib.request    向頁面發送請求並返回,聯繫之前的get和post兩種請求方式        urlopen    實現對目標

原创 DA0201 數據儲用規範化——EXCEL數據分析前置

一、   數據格式(數據規範化) (數據規範化不是數據標準化,是excel的數據格式等內容的前置警示)1.    不要合併單元格!2.    合計、總計另起一行,不要放在後面(最好不要合計,另有彙總表/數據透視圖處理彙總信息)3.    

原创 DA0203 數據清洗——數據分析之EXCEL

數據清洗 1.    重複數據處理  選項卡:數據——數據工具——刪除重複項2.    缺失數據處理1)尋找空白值  選項卡:開始——編輯——查找和選擇——定位條件——空值快捷: Ctrl + G ——定位條件——空值Null等值,使用C