原创 經典排序算法:歸併排序(python)

原理: 歸併排序也是採用分治法,它將待排序序列分爲若干個子序列,先使每個子序列有序,然後再將已有有序子序列合併爲整體有序序列。 算法分爲兩步:遞歸和合並 (1)、遞歸:先把待排序數組以中點二分,接着把左邊子數組繼續二分,再把右

原创 pandas數據索引:loc、iloc和ix

1、loc通過行標籤索引行數據 (1)、loc[‘d’]:獲取第’d’行數據import pandas as pd data = [[1,2,3],[4,5,6]] index = [‘d’,'e'] columns=['a'

原创 機器學習常用算法:Logistic Regression

邏輯斯諦分佈 設XX 是連續隨機變量,XX 服從邏輯斯諦分佈是指XX 具有下列分佈函數和密度函數: 分佈函數 F(x)=P(X≤x)=11+e−(x−μ)/γF(x)=P(X≤x)=11+e−(x−μ)/γ 密度函數

原创 經典排序算法:快速排序(python)

原理: 快速排序是一種交換類排序,是對冒泡排序的一種改進,是分治法的經典表現。首先通過一次排序將要排序的數據分割成獨立的兩部分,其中一部分的所有數據都比另外一部分的所有數據要小,然後再按此方法對這兩部分數據分別進行快速排序,整個排

原创 MySQL基本操作

一、簡介 MySQL是由David Axmark、Allan Larsson和Michael Widenius3個瑞典人於20世紀90年代開發的一個關係型數據庫管理系統,主要用於存儲和管理數據。所謂關係型數據庫,是建立在關係模型基

原创 機器學習常用算法:最大熵模型

最大熵原理 學習概率模型時,在所有可能的概率模型中,熵最大的模型是最好的模型。 假設離散隨機變量XX 的概率分佈是 P(X)P(X) , 則其熵爲 H(P)=−∑xP(x)logP(x)H(P)=−∑xP(x)logP(x)

原创 Sklearn數據預處理:scale, StandardScaler, MinMaxScaler, Normalizer

一、標準化 去除均值和方差縮放:通過(X-X_mean)/std計算每個屬性(每列),進而使所有數據聚集在0附近,方差爲1. (1)、sklearn.preprocessing.scale() 直接將給定數據進行標準化 from

原创 天池比賽:o2o優惠券使用預測

一、比賽背景 O2O:全稱Online To Offline,線上線下電子商務,是把線上的消費者帶到現實的商店中去:在線支付線下商品、服務,再到線下去享受服務。通過打折(例如團購)、提供信息、服務(例如預定)等方式,把線下商店的消

原创 ubuntu 下安裝 Python tweepy庫

1.下載安裝文件.zip文件https://github.com/sixohsix/twitter2.在指定文件夾下解壓該文件並安裝unzip twitter-master.zip cd twitter-master python set

原创 經典排序算法:堆排序(python)

原理: 堆排序是指利用堆(最大堆、最小堆)這種數據結構所設計的一種排序算法。其中堆是一種完全二叉樹的結構,並滿足子結點的鍵值或索引總是小於(或者大於)它的父結點。 用最大堆排序的基本思想:堆排序從最大堆的頂部不斷取走堆頂元素放到

原创 GitLab安裝與使用

Git是目前世界上最先進的分佈式版本控制系統。GitLab是一個利用Ruby on Rails開發的開源應用程序,實現一個自託管的Git項目倉庫,可以瀏覽源代碼,管理缺陷和註釋。1.安裝git首先,輸入git,檢查系統是否安裝git然後,

原创 查找算法:二分查找(python)

原理: 二分查找又稱折半查找,binary search,是一種效率較高的查找方法。該算法將數組的中間元素與查找元素進行比較,如果相等,則查找結束; 如果查找元素大於或者小於中間元素,則在數組大於或小於中間元素的那一半數組中查找,

原创 anaconda升級與卸載

1.升級conda update conda conda update anaconda2.卸載刪除anaconda的安裝文件rm -rf anaconda並清理.bashrc中的anaconda路徑

原创 pandas數據新索引:reindex

DataFrame.reindex(labels=None, index=None, columns=None, axis=None, method=None, copy=True, level=None, fill_value=nan,

原创 MySQL數據類型

一、簡介 每個變量、常量和參數都具有數據類型,用於指定一定的存儲格式、約束和有效範圍。MySQL主要提供數值型、日期時間類型和字符串類型的數據類型。 二、數值類型 整數類型:按取值範圍和存儲方式不同,分爲tinyint、small