原创 項目學習01--用戶畫像

1.賽題解讀 預測目標(中國移動信用解釋) 2.數據探索分析(EDA) 2.1數據基本情況:缺失值,各字段數據類型、數值型字段的統計分佈 年齡爲0,可能是主辦方對缺失值數據填充,年齡大於100可能是異常數據 2.2

原创 基於 Python 的 11 種經典數據降維算法|LLE(locally linear embedding)降維算法

LLE(locally linear embedding)降維算法 LLE(locally linear embedding)LLE 即局部線性嵌入算法,它是一種非線性降維算法。該算法核心思想爲每個點可以由與它相鄰的多個點的線性組

原创 基於 Python 的 11 種經典數據降維算法|主成分分析(PCA)降維

主成分分析(PCA)降維 PCA 是一種基於從高維空間映射到低維空間的映射方法,也是最基礎的無監督降維算法,其目標是向數據變化最大的方向投影,或者說向重構誤差最小化的方向投影。它由 Karl Pearson 在 1901 年提出

原创 保潔業務數據概況分析

#調包 import pandas as pd #數據讀取# #index_col=0 ,去除Unnamed=0數據 store=pd.read_csv('w2_store_rev.csv',index_col=0) #數據的

原创 基於 Python 的 11 種經典數據降維算法|LPP(Locality Preserving Projections)

LPP(Locality Preserving Projections) LPP 即局部保留投影算法,其思路和拉普拉斯特徵映射類似,核心思想爲通過最好的保持一個數據集的鄰居結構信息來構造投影映射,但 LPP 不同於 LE 的直接得

原创 美團分析

import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline meituan=pd.read_csv('

原创 基於 Python 的 11 種經典數據降維算法|LE(Laplacian Eigenmaps)降維算法

LE 即拉普拉斯特徵映射,它與 LLE 算法有些相似,也是以局部的角度去構建數據之間的關係。它的直觀思想是希望相互間有關係的點(在圖中相連的點)在降維後的空間中儘可能的靠近;以這種方式,可以得到一個能反映流形的幾何結構的解。 L

原创 1.Python基本數據結構&運算符&輸入輸出

Python基本數據類型–數值型 233 # int 233 2.33 # float 2.33 '233' #str '233' type(233)#查看變量類型 int type(233.0) float

原创 EXCEL做數據分析|目錄索引

該部分是我在使用excel做數據分析處理過程中遇到的問題,方便以後遇到該問題進行查找。 函數 問題描述 VLOOKUP 兩個文件,按照一個文件中的某一列篩選另一個文件中的數據

原创 基於 Python 的 11 種經典數據降維算法|t-SNE降維算法

t-SNE降維算法 t-SNE 也是一種非線性降維算法,非常適用於高維數據降維到 2 維或者 3 維進行可視化。它是一種以數據原有的趨勢爲基礎,重建其在低緯度(二維或三維)下數據趨勢的無監督機器學習算法。 下面的結果展示參考了源代

原创 期刊系統的13種投稿狀態

期刊系統的13種投稿狀態 大部分的期刊都有在線投稿系統,讓作者能夠快速簡單完成投稿,一旦論文遞交出去後,作者可以通過系統查看投稿狀態,瞭解期刊處理論文的進度。作者在投稿出去後都會感到很焦慮,一直刷新系統狀態,有時候出現了不知道是什

原创 w4_聚類分析_airbnb_參考代碼

Airbnb數據字典 #調包 import pandas as pd import seaborn as sns#更方便直接視圖,查看結果 import matplotlib.pyplot as plt#調參更加靈活 %matp

原创 LIBSVM做迴歸預測

用libsvm做迴歸的人有的疑惑大致有這些: 1,怎麼把數據整理成規定格式,我以前的帖子寫了,只要用一個帶有宏的excel就能搞定,話不多說。 2,有人會說svm就打幾條命令就能得出結果 (svm-train -s 3 -t 2

原创 用戶粘性

1.用戶粘性指標計算 參考: app數據分析體系 - 用戶粘性 DAU,MAU 和 月人均活躍天數 用戶運營,如何做好活躍用戶的數據分析 2.用戶粘性指標分析 ①初粘性,持粘性,強粘性。 初粘性的關鍵:在於你能ge

原创 線性迴歸和邏輯迴歸(比較清楚)

1.線性迴歸 在統計學中,線性迴歸(Linear Regression)是利用稱爲線性迴歸方程的最小平方函數對一個或多個自變量和因變量之間關係進行建模的一種迴歸分析。這種函數是一個或多個稱爲迴歸係數的模型參數的線性組合(自變量都是