原创 Python3 PCA理解小攻略

主成分分析(Principal Component Analysis,PCA), 是一種多元統計方法,也廣泛應用於機器學習和其它領域。通過正交變換將一組可能存在相關性的變量轉換爲一組線性不相關的變量,轉換後的這組變量叫主成分。它的主要

原创 10折交叉驗證深入理解

交叉驗證(Cross Validation),有的時候也稱作循環估計(Rotation Estimation),是一種統計學上將數據樣本切割成較小子集的實用方法,該理論是由Seymour Geisser提出的。 在給定的建模樣本中,拿

原创 logistic regression using Theano and stochastic gradient descent

本文是學習Theno教程做的網頁版筆記!後續的學習過程中會重點關注如下的網站: http://deeplearning.net/tutorial/logreg.html https://www.microsoft.com/en-us

原创 爬蟲小程序

應爬取新數據的急迫需求,學習和整理如下爬蟲程序供後續學習和使用!修改各個路徑和URL後本代碼就可以正常執行了。 主要步驟: 1.西刺網上爬取IP數據; 2.檢驗爬取的IP的有效性; 3.將有效IP封裝在List數據結構中構造成一個IP

原创 Python3實現二叉樹的逐層遍歷,並將奇數層順序輸出,偶數層逆序輸出

任意給定一棵二叉樹,實現對二叉樹的逐層遍歷,並將奇數層順序輸出,偶數層逆序輸出。如建立如下的二叉樹: ···················root ········ ·····7 ·········· 8 ·········6 ··

原创 10折交叉驗證中數據集的簡易劃分方式總結

DataFrame中自己手動做10折交叉驗證時,實現採樣出一折後,對原始的總的數據的索引集合與採樣出的那一折的索引集合做差,獲得另外的9折的索引用於構造訓練集。 """1.10折交叉驗證中數據的隨機劃分函數""" def cross_

原创 Python3各種數據結構下的排序彙總

1.List的排序; 2.dict的排序; 3.DataFrame和Series的排序; 4.List的元素去重 1.List的排序 ······使用 list.sort() 方法,此方法爲就地排序(並且返回 None 來避免混淆)。

原创 Python3腳本實現csv文件和arff文件的相互轉換

本文實現在Python3環境下,編程實現csv文件和arff文件的相互轉換。本文所用數據來自於weka3.8或者weka3.9中data子目錄下的airline.arff文件。使用Python代碼實現airline.arff到airl

原创 構造正負樣本:drug特徵和atc特徵和類標籤

pos_sample_df是一個drug和ATC編碼之間是否有associations的鄰接矩陣,我需要根據這個矩陣來實現正負樣本的構造。即:鄰接矩陣中drug和ATC有邊則用來構造正樣本,無邊用來構造負樣本。其中有2000種drug

原创 Python3 pd.merge()使用實例

本文想要將各個國家的恐怖襲擊次數(頻率),按照國家編號,依次賦給原始數據中113249條記錄。 實現如下效果: import pandas as pd import numpy as np import matplotlib.py

原创 weka java.io.IOException: Read unknown nominal value P2for attribute class (line: 20306)

最近weka3.8中遇到這麼一個問題,百思不得解:在命令行下面,我想要通過weka命令將.csv文件轉換成.arff文件: java weka.core.converters.CSVLoader C:\Users\Administra

原创 基於Bayes和SVM的垃圾郵件分類實現(改進版)

對本文標題進行分詞和提取關鍵詞,本文關鍵詞如下:分類、垃圾郵件分類(spam)、Bayes、SVM、改進版(體現在哪裏?)。本文不對Bayes、SVM原理做過多的攝入和解釋,主要是使用這些算法做一個基礎的baseline以供後續學習和

原创 Matlab二值圖像柵格化和圓域範圍框定

本文以2017年華爲杯數學建模A題中震區高程數據,實現對海拔高於3000m的震區做閾值截斷,將海拔大於等於3000m的地區賦予新值255,將海拔小於3000m地區賦予新值0,從而獲得震區3000m海拔高度下的二值圖像。震區圖和3000

原创 2018華爲杯E題的一些思考和三維模型圖繪圖技巧總結

2018華爲杯全國研究生數學建模E題:多無人機對組網雷達的協同干擾。第一部分先對賽題中幾個概念做出明確解釋!第二部分主要是模型需要使用的一些繪圖技巧總結。 1.賽題背景: 干擾機以"距離假目標欺騙"的方式來實施對地面組網雷達系統進行有

原创 2018年"華爲杯"數學建模獲獎名單挖掘分析

本文針對2018年"華爲杯"數學建模6張擬獲獎名單做一次簡單的統計分析,以下分析結果僅代表思路,勿要以假亂真,權威結果統計以各大高校官方結果爲準。以該2018年"華爲杯"A,B,C,D,E,F共計6道題目的擬獲獎名單爲原材料。主要鍛鍊