原创 [B4]鏈家二手房價格預測

“這篇博客主要分享一個數據分析初級項目,基本概括了一個完整項目的各個分析階段,但是數據獲取是直接在鏈家官網爬取的,這部分先不分享了。過程中還有很多不足的地方,希望各位大佬多多指點。” 1.數據預處理 首先導入科學計算包 impor

原创 [B11]數據挖掘實戰:客戶流失預警系統

*這是一個數據挖掘的小項目, 將從以下幾個方面來分析: 數據清洗與格式轉換 探索性數據分析 特徵篩選 特徵工程 建立多種基礎模型,嘗試多種算法 模型調參/提升模型 評估測試/結論彙報 分析與準備數據 數據簡介 State:州名

原创 [B5]我的第一個量化策略

最近在學量化,剛學了一點點基礎,這篇博客只作爲一篇學習筆記,我想通過這種方式應該可以更好的激勵自己去學習。 需求: 選股:獲得市盈率大於50且小於65,營業總收入前10的股票 調倉:每日調倉,將所有資金平攤到10個股票的購買策

原创 [B9]爬蟲課程01

url詳解 1. urlopen函數—打開一個網頁 from urllib import request r=request.urlopen('http://www.baidu.com') print(r.read(2000

原创 [B10]爬蟲課程02

數據解析 1.Xpath語法和lxml模塊 #使用方式:使用//獲取整個頁面當中的元素,然後寫標籤名,然後再寫謂詞進行提取。 //div[@clas='abc'] 需要注意的知識點: 1./和//的區別:/只獲取直接子節點,//

原创 [B6]多因子數據的處理方式

多因子數據的處理:主要包括三種方式-----------去極值;標準化;中性化 1.去極值 去極值不是刪除而是拉回正常值 (1)分位數去極值 (2)3倍中位數去極值(3mad) (3)正太分佈去極值(3sigma) 首先安裝以

原创 [B3]泰坦尼克號數據分析

這是我做的第一個半完整的數據分析項目,裏面包含數據獲取,數據清洗,描述性統計,數據可視化,機器學習建模等內容。花了我兩天時間,中間出了很多bug,而且原始數據也有問題,因此存在較多缺陷,還請各位大佬多多指教! 目錄: 1.數據獲取

原创 [B7]社羣粉絲數據分析

最近在做社交電商,涉及到社羣運營,剛做不久,羣成員才200多人,但也積累了不少經驗和教訓。爲了進一步瞭解粉絲的偏好,現決定對部分粉絲做一個簡單的數據分析。 一、數據獲取 由於羣裏只有一半人是我認識的,對其基本信息有所瞭解,故僅