原创 大數據-數據倉庫-數據傾斜

一、什麼是數據傾斜 簡單來說,數據傾斜就是數據的分佈不平衡,在處理數據時有些很快處理完,而有些又遲遲未能處理完,導致整體任務最重遲遲無法完成,這種現象就是數據傾斜造成的。 數據傾斜就是key分佈不均勻,分發到不同的reduce上,

原创 Python-Numpy中Array用法總結

Numpy中array(數組) Numpy主要對象是齊次多維數組,由正整數元組索引,Numpy中維度稱爲軸(axis),數組的維數稱爲秩(rank)。 可以參考:Numpy快速入門 1.1 創建數組 常規方法創建數組 impo

原创 Python-Pandas之DataFrame用法總結

DataFrame:類似於表的數據結構 通過與array以及series對比進行學習,會更清楚DataFrame的用法和特點。 本文對Pandas包中二維(多維)數據結構DataFrame的特點和用法進行了總結歸納。 可以參考:

原创 Python-辨析type/dtype/astype用法

Python中與數據類型相關函數及屬性有如下三個:type/dtype/astype。 名稱 描述 type() 返回參數的數據類型 dtype 返回數組中元素的數據類型 astype() 對數據類型進行轉換

原创 數據運營-計算留存率等指標(SQL)

一、問題1:留存率計算 字段及表說明: 表名:user_log 字段名: log_day:登錄日期 device_id:用戶設備id app_id:用戶app的id,其中device_id和app_id確定唯一的用戶 1.1計算某

原创 機器學習-各類學習器評價指標

一、各類學習器評價指標 機器學習是藉助算法模型來解析數據,並從中學習,然後對真實世界中事件作出決策或預測的方法。根據是否提供數據的分類結果(數據的標籤),可將機器學習方法分爲兩大類:監督學習(如分類和迴歸方法),無監督學習(如聚類

原创 Python-sklearn包中自動調參方法-網格搜索GridSearchCV

sklearn包中自動調參方法-網格搜索GridSearchCV 一、GridSearchCV主要作用及函數參數 GridSearchCV:作用是在指定的範圍內可以自動調參,只需將參數輸入即可得到最優化的結果和參數。相對於人工調參

原创 Python-Seaborn繪製圖形

一、Seaborn特點 Seaborn是在matplotlib基礎上進行更高級的API封裝,常在繪製統計圖形時使用。 二、加載數據構建Seaborn圖像並設置主題格式 可以使用sns.load_dataset()函數來加載內置的

原创 機器學習-描述性統計(Python)

描述性統計指標含義 numpy/scipy包中求相應統計指標的方法: 利用Python進行描述統計分析時,用到numpy庫/scipy庫 1. 中心位置:均值、中位數(分位數)、衆數 均值(mean(data)):描述了樣本觀

原创 讀書筆記-《啓示錄--打造用戶喜愛的產品》

《啓示錄–打造用戶喜愛的產品》 Inspired – How To Create Products Customers Love 總結Summary:本書介紹了產品經理的職責以及與其他角色之間的關係,並對產品管理流程中產品需求分析

原创 Python-查看已安裝模塊命令

查看已安裝模塊列表 pip list 查看具體模塊、內置函數 dir(modules) # 獲得當前模塊的屬性列表 dir([modules]) # 查看列表的方法 查看具體模塊等的用法 查看python所有的module

原创 Python-sklearn包中cross_val_score進行交叉驗證

sklearn包中cross_val_score進行交叉驗證 一、cross_val_score函數功能及參數釋義 驗證模型在某個訓練集上的穩定性,輸出cv=k個預測精度。 sklearn.cross_validation.cro

原创 數據運營-計算留存率和轉化率(漏斗分析&Python)

一、案例數據 在數據運營中,留存率分析和轉化率(漏斗)分析是經常用到的,本文結合具體案例總結了如何利用python求n日留存率以及各環節間轉化率。 指標釋義 案例數據集介紹: 本文是利用淘寶app的運營數據進行分析的,數據集中包含

原创 讀書筆記-《Don't make me think》第三版

前言:本書主要介紹了在web端可用性設計的一些原則,移動端略有涉及但並不多。在國內移動互聯網日益成熟,同時web端重要性逐漸下降的背景下,學習本書的價值可能主要在於其可用性的通用原則,以及可用性測試可以給我們帶來較大啓發。 第一章

原创 Python-matplotlib畫圖時中文顯示爲小方框的解決方法

Mac版本: 參考:https://www.cnblogs.com/Ootori/p/7716687.html 其中加代碼時要多一行:import matplotlib as mpl Windows版本: 參考:https://b