原创 加州房價預測模型

import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib %matplotlib inline %config Inli

原创 初識機器學習 | 4.線性迴歸

import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib %matplotlib inline %config Inli

原创 初識機器學習 | 8.聚類算法

import pandas as pd import numpy as np import matplotlib import matplotlib.pyplot as plt from sklearn import datas

原创 初識機器學習 | 6.邏輯迴歸

import numpy as np import matplotlib.pyplot as plt %matplotlib %matplotlib inline %config InlineBackend.figure_for

原创 免費代理IP池

免費代理IP池 高頻抓取某個網站的數據,很有可能就被網站管理員封掉IP,導致抓取數據失敗,解決這個問題最直接,簡單的方法就是使用代理IP。目前網上有不少提供付費代理IP的平臺,但是如需長期使用,該方案是筆不少的開銷。本項目通過抓取

原创 初識機器學習 | 7.決策樹

import numpy as np import matplotlib import matplotlib.pyplot as plt %matplotlib %matplotlib inline %config Inlin

原创 初識機器學習 | 5.梯度下降

import numpy as np import matplotlib.pyplot as plt %matplotlib %matplotlib inline %config InlineBackend.figure_for

原创 初識機器學習 | 1.用代碼打開AI的大門

什麼是機器學習 機器學習是從數據中自動分析獲得模型,並利用模型對未知的數據進行預測。其中 數據集構成:特徵值 + 目標值。 監督學習 有目標值。輸入數據由輸入特徵值與目標值組成。函數輸出一個連續的值(稱爲迴歸),或是輸出有線個離散

原创 初識機器學習 | 2.如何評價模型好壞

下例爲乳房癌的概率,通過多個角度評估模型。 import pandas as pd from sklearn.datasets import load_breast_cancer from sklearn.model_selec

原创 SparkSQL | 窗口函數

窗口函數的定義引用一個大佬的定義: a window function calculates a return value for every input row of a table based on a group of ro

原创 統計學 | 2.數據的描述性統計

import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib %matplotlib inline %config Inli

原创 集成學習初識

import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn import datasets %matplotlib %

原创 統計學 | 3.概率與概率分佈

import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from scipy.stats impo

原创 SparkSQL | 表生成函數

lateral view與 explode函數按理說是不應該在數據庫裏存在的,因爲他違背了第一範式(每個屬性不可再分)。但是實際的場景,如一些大數據場景還是會存在將一些低頻使用但又不能丟失的數據存成json,這種場景下就需要解析j

原创 Seaborn | 初識Seaborn

import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline # 使用默認的seaborn主題 sns.set() tips小費數據集 to