原创 bootstrap, boosting, bagging,randomforrrest 幾種方法的區別與聯繫

Bootstraping: 名字來自成語“pull up by your own bootstraps”,意思是依靠你自己的資源,稱爲自助法,它是一種有放回的抽樣方法,它是非參數統計中一種重要的估計統計量方差進而進行區間估計的統計

原创 機器學習算法-SVM

1、SVM原理 http://blog.csdn.net/alvine008/article/details/9097105 2、python實現 #coding:gbk #coding:utf-8 ''' Created on

原创 Spark基礎

1、什麼是Spark? Spark是一個針對大規模數據處理的快速通用引擎。 類似MapReduce,都進行數據的處理 2、Spark的特點: (1)基於Scala語言、Spark基

原创 利用yolov3 進行目標檢測(可自定義檢測的類別)

最近在研究車輛檢測相關算法,因yolo算法的速度和精度基本均能滿足要求,原版的yolo v3算法是檢測多類物體,本人是在原來代碼的基礎上修改爲檢測單目標車輛,並基於預訓練權重在VOC2007數據集上進行訓練。 源代碼:https:

原创 Windows 10系統在Anaconda下安裝GPU版Pytorch

在此之前默認Anaconda,CUDA, cuDNN 已安裝好了。CUDA, cuDNN 下載對應版本安裝。 我的環境爲:win10+Anaconda+python3.6+cuda10.0 1、打開anaconda prompt

原创 csv文件導入到neo4j數據庫

1、停止neo4j服務:neo4j stop 2、導入csv數據 使用的數據如http://neo4j.com/docs/stable/re03.html,包含節點文件movies、actors和關係文件roles,創建三個excel

原创 python2.x代碼轉化爲python3.x

python官方提供了python2自動轉化爲python3的方法,利用2to3.py文件,位置爲python安裝目錄下的Tools\scripts文件夾下,我安裝的是anaconda ,所以我的目錄是Anaconda3\Tools\

原创 日常代碼報錯:python KeyError:b'Variable'

最近在進行visual-semantic-embedding方面的學習,在運行代碼時,一直報KeyError:b’Variable’這個錯誤,查了很久,基本都是說 當請求字典對象裏面沒有的key時,python會拋出異常KeyErro

原创 利用wiki數據訓練英文Doc2vec模型

1、語料庫準備 從此處下載英文維基百科數據,是xml壓縮包的形式,下載文件,以enwiki-latest-pages-articles1.xml-p10p30302.bz2爲例: 由於是壓縮包,所以需要進行預處理,變成文本的形式。在c

原创 利用vgg預訓練模型提取圖像特徵

VGG卷積神經網絡是牛津大學在2014年提出來的模型。當這個模型被提出時,由於它的簡潔性和實用性,馬上成爲了當時最流行的卷積神經網絡模型。它在圖像分類和目標檢測任務中都表現出非常好的結果。在2014年的ILSVRC比賽中,VGG 在T

原创 往github上push源碼出錯:! [rejected]... error: failed to push some ref to 'https://...'

在往github上push代碼時,步驟: (1) git init (2) git add . (3) git commit -m “first commit” (“git commit -m “提交信息””) (4) git re

原创 Spark實現WordCount單詞計數

spark連接到master: bin/spark-shell –master spark://master:7077 連接成功。 scala>sc.textFile(“hdfs://master:9000/root/data/in

原创 Python數據操作—詞幹與詞形化

1、詞幹化 在自然語言處理領域,我們i經常會遇到兩個或兩個以上單詞具有共同根源的情況。 例如,agreed, agreeing 和 agreeable這三個詞具有相同的詞根。 涉及任何這些詞的搜索應該把它們當作是根詞的同一個詞。 因此將

原创 推薦系統的基本原理

基於內容的推薦系統 根據每部電影的內容以及用戶已經評過分的電影來判斷每個用戶對每部電影的喜好程度,從而預測每個用戶對沒有看過的電影的評分。 電影內容矩陣X * 用戶喜好矩陣θ = 電影評分表 那麼,用戶喜好矩陣θ(用戶對於每種不

原创 Python數據操作—處理Json數據

JSON文件以可讀的格式將數據存儲爲文本。 JSON代表JavaScript Object Notation。 使用read_json函數,Pandas可以讀取JSON文件。 輸入數據 通過將以下數據複製到文本編輯器(如記事本)來創建J