原创 Python練習-合併excel表格

前言: 這個栗子本來打算是要合併自己下載的數據集,但是嘗試了好久!!才發現是.xls文件損壞了…我忍…在練習過程遇到不少bug,若是小夥伴有疑問可以提一提,說不定我遇到過,恍恍惚惚… 代碼: ''' #excel_combi

原创 python os.path.isfile()因參數問題判斷錯誤

目的: 找出路徑坐在的所有python文件(.py結尾),返回列表。 代碼: def list_py(path = None): if path == None: path = os.getcwd()

原创 Python爬取足球網站賽況

前言: 本次爬取數據本意爲了作爲學習決策樹,但發現構造特徵時因不瞭解足球賽制,難以構造出較好的特徵。如果有小夥伴也對這個感興趣的話就和我交流交流吧~~ 代碼: ''' #get_tata.py 獲取uhchina.co

原创 Anaconda 從github或者本地離線安裝第三方包(詳細)

前言: 參加一個建模比賽,在使用python的時候很多模塊官方並沒有,不能夠直接conda install 或者pip install。看網上的離線安裝也多是.whl文件或者tar.bz2等。也有文章介紹了從github中下載後該如何

原创 探索數據之自相關圖分析(一)

前言: 作爲探索數據的第一部分,本文先給出時間序列,自相關圖,平穩性檢驗等概念。後續補充相應的python代碼。該篇文章主要摘自王燕的《應用時間序列分析》,有興趣深入瞭解的讀者可參照這本書。 正文: 時間序列的定義: 拿到一組

原创 python引用和對象,淺拷貝和深拷貝

關鍵: 在python中的分爲 可變數據對象(列表,字典) 和 不可變數據對象(整型,字符串,浮點型,元祖)。 可變的意思是引用之間會相互影響,不可變則不會相互影響。 如果是可變對象的話就算是函數參數傳遞也會相互影響,即函數內部對對象

原创 機器學習——數學基礎

前言:適用本人,在學習中記錄要用的數學知識。 1.約束最優化問題求解:拉格朗日乘子法和KKT條件 https://blog.csdn.net/DawnRanger/article/details/53133450 2.何爲二次型,二次型

原创 Python數據挖掘之用圖挖掘同樣喜歡梅西的的人

前言: 本次同樣在twitter上進行數據挖掘,主題是構建圖,計算相似度,找到同樣喜歡梅西的人,之後可以進行好友推薦,或者用戶建羣等。 編輯工具:anaconda 的jupyter notebook,所以會直接在代碼後面跟上輸出。

原创 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 0: invalid continuation byte

前言: 在我使用pandas模塊對csv文件讀取時報錯: UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 0: invalid continuat

原创 python矩陣和array數組之間的轉換

前言: array數組要轉換成矩陣(matrix)數據類型才能進行一系列的線性運算。matrix類型也有時候要轉換成array數組。 代碼: 1.array轉matrix:用mat() a = arange(3*2).reshape(

原创 數學裏的協方差和皮爾遜相關係數到numpy模塊的cov()和corrcoef()函數

僅適用本人記錄 文檔: https://docs.scipy.org/doc/numpy/reference/generated/numpy.cov.html https://docs.scipy.org/doc/numpy/refe

原创 numpy.linalg ——numpy中包含線性代數函數的模塊

前言: 本篇主要由博主xie仗劍天涯的總結,博文: https://www.cnblogs.com/xieshengsen/p/6836430.html 這裏主要整理格式,給自己作爲記錄 正文: 線性代數 numpy.linalg模塊

原创 特徵工程——用轉換器抽取特徵

前言: 《python數據挖掘入門與實踐》第五章。學習構造自己的轉換器,和特徵工程的一些技巧。 代碼及每一部分的輸出如下。 數據下載: http://archive.ics.uci.edu/ml/machine-learning-da

原创 迴歸算法與偏差方差的平衡

前言: 本篇文章基於《機器學習實戰》第八章回歸部分,加上了自己的理解。 迴歸算法與偏差方差的平衡 一、標準線性迴歸 標準迴歸函數和數據導入函數 from numpy import * def loadDataSet(fileName):

原创 使用樸素貝葉斯進行社會媒體挖掘之推特

前言: 本文參考《python數據挖掘入門與實踐》第六章,進行twiitter社會媒體挖掘。學完後感覺對社會媒體挖掘領域很有興趣,往後會深入研究。還有就是本文采用ipython編輯,代碼後面緊跟着輸出,注意不要混淆。 正文: ## 下