原创 pandas下——進階學習

  6、缺失數據 缺失觀測及其類型:瞭解缺失信息、三種缺失符號、Nullable類型與NA符號、NA的特性、convert_dtypes方法 缺失數據的運算與分組:加號與乘號規則、groupby方法中的缺失值 填充與剔除:fillna方法

原创 概率統計學習

01隨機事件與隨機變量 關鍵詞:隨機現象、隨機試驗、E、相同條件重複進行、 樣本空間、樣本點、隨機事件、必然事件、不可能事件 02數理統計與描述性分析 03常見分佈與假設檢驗 04方差分析  

原创 task1-自學AI

原创 數據競賽房租預測——賽題分析

                “2019未來杯高校AI挑戰賽 > 城市-房產租金預測” 目錄                 “2019未來杯高校AI挑戰賽 > 城市-房產租金預測” 一、賽題概述 賽題說明  線上比賽數據發放與結果提交

原创 數據競賽房租預測——整理

以下將從本次學習的六個環節進行總結: 賽題分析 此部分學習了EDA描述性統計分析。學習並掌握了缺失值分析、單調特徵列分析。 數據分析的初步流程:查看標籤info——>具體分析標籤特徵(單調性、出現頻次、缺失率、分佈情況)——> 分析訓

原创 task4建模與調參

1線性迴歸模型: 線性迴歸對於特徵的要求; 處理長尾分佈; 理解線性迴歸模型; 2模型性能驗證: 評價函數與目標函數; 交叉驗證方法; 留一驗證方法; 針對時間序列問題的驗證; 繪製學習率曲線; 繪製驗證曲線; 3嵌入式特徵選擇: Las

原创 task3特徵工程+task2EDA分析補充

由於task2打卡失誤,僅包含賽題理解,所以在task3中做一個補充~~ task2補充 EDA中使用到的基本方法: data.shape()查看數據行列總數 data.head().append(data.tail())查看首尾五行 d

原创 task5模型融合

簡單加權融合: 迴歸(分類概率):算術平均融合(Arithmetic mean),幾何平均融合(Geometric mean); 分類:投票(Voting) 綜合:排序融合(Rank averaging),log融合 stacking/b

原创 數據競賽房租預測——模型融合

Stacking !pip install mlxtend import warnings warnings.filterwarnings('ignore') import itertools import numpy as np i

原创 Pandas數據分析——從0.3到0.8學習指南

 注:本文是學習+整理的筆記   學習資料及學習團隊組織均爲DataWhale提供   目錄  一、基礎部分 篩選數據 Series數據結構 DataFrame數據結構 apply函數 索引 分組 變形  合併    一、基礎部分 im

原创 task1-賽題理解

此次賽題內容爲二手車價格預測,本節主要理解字段及賽題要求。 數據字段 SaleID - 銷售樣本ID name - 汽車編碼 regDate - 汽車註冊時間 model - 車型編碼 brand - 品牌 bodyType - 車身類型

原创 應屆生租房和麪試部分個人資料總結

之前做的部分筆記,未完善。以後用到會再補充框架內容。                 

原创 Linux下的Hadoop安裝部署

環境使用:虛擬機VMware,Linux系統爲Ubuntu18.04,Hadoop最新版 下載鏈接:VMware  Ubuntu  Hadoop 下載SecureCRT用於本地與Linux進行文件傳輸,點擊下載  安裝指南 未完

原创 Python爬蟲編程實踐——從0.1到0.5學習總結

使用環境:Anaconda3,Chorme 一個網絡爬蟲程序最普遍的過程: 訪問站點; 定位所需的信息; 得到並處理信息。 示例1:爬python官網的“python之禪” import requests url = 'https://

原创 Pandas數據分析——從0.5到1學習指南

 注:本文是學習+整理的原創喔   基礎部分 import pandas as pd import numpy as np 設置行列最大數 pd.set_option('max_column',8,'max_rows',10) 文件