原创 R語言簡單繪圖(一)

dose <- c(20,30,40,45,60) dragA <- c(16,20,27,40,60) dragB <- c(15,18,25,31,40) plot(dose,dragA,type="b") plot(dos

原创 利用英文wiki數據訓練Doc2vec模型

1、語料庫準備 從此處下載英文維基百科數據,是xml壓縮包的形式,下載文件,以enwiki-latest-pages-articles1.xml-p10p30302.bz2爲例: 由於是壓縮包,所以需要進行預處理,變成文本的形式。

原创 利用sklearn 計算 precision、recall、F1 score

精確度:precision,正確預測爲正的,佔全部預測爲正的比例,TP / (TP+FP) 召回率:recall,正確預測爲正的,佔全部實際爲正的比例,TP / (TP+FN) F1-score:精確率和召回率的調和平均數,2 *

原创 R語言簡單繪圖(二)

1、條形圖—barplot() barplot(c(1,2,4,2,6,4,3,5)) barplot(c(1,2,4,2,6,4,3,5), horiz = TRUE) counts = table(Arthritis$Im

原创 字符串/數值處理常用函數

1、字符串處理 nchar("abcde") # 字符串長度 substr("abcdef", 3, 5) #按索引取出子串 grep("a", c("a", "b", "a", "c")) # 得到"a"所在索引 sub("a"

原创 R語言簡單繪圖

dose <- c(20,30,40,45,60) dragA <- c(16,20,27,40,60) dragB <- c(15,18,25,31,40) plot(dose,dragA,type="b") plot(dos

原创 R語言數據源導入

R語言導入數據,有鍵盤手動輸入,讀取文件方式,數據庫導入方式。 1、鍵盤輸入 mydata <- data.frame(age=numeric(0),weight=numeric(0), gender=character(0))

原创 python opencv獲取視頻基本信息

video_path = "./test0.mp4" video_capture = cv2.VideoCapture(video_path) video_FourCC = int(video_capture.get(cv2.CA

原创 sklearn中模型構建、參數調優、模型驗證等的使用

1、參數選擇 使用sklearn中算法進行建模時,算法接口提供默認的參數,爲了提高模型的性能,往往需要對模型進行調參,sklearn提供兩種參數搜索方式:一種是GridSearchCV搜索指定參數空間所有參數組合;另一種是Rand

原创 基於yolov3的口罩檢測

1、數據集準備 假設已經有了標註好的一分部數據, (1)運行voc2yolo3.py生成txt文件,保存在ImageSets/Main目錄下 (2)修改voc_annotation.py中的classes classes = ["

原创 Spark僞分佈式環境搭建

1、解壓:tar -zxvf spark-2.1.0-bin-hadoop2.4.tgz -C ~/training/ conf/目錄下: cp spark-env.sh.template

原创 快速排序(python實現)

快速排序(Quicksort)是對冒泡排序的一種改進。它的基本思想是:通過一趟排序將要排序的數據分割成獨立的兩部分,其中一部分的所有數據都比另外一部分的所有數據都要小,然後再按此方法對這兩部分數據分別進行快速排序,整個排序過程可以

原创 機器學習算法-k-means聚類算法

一、k-means原理 k-means也是聚類算法中最簡單的一種了,但是裏面包含的思想卻是不一般。聚類屬於無監督學習,以往的迴歸、樸素貝葉斯、SVM等都是有類別標籤y的,也就是說樣例中已經給出了樣例的分類。而聚類的樣本中卻沒

原创 利用bert進行文本分類

1、任務及數據集描述 實現利用bert預訓練模型進行中文新聞分類,共10類,使用的數據集情況: 其中,train.txt, dev.txt, test.txt內容格式爲每一行爲“內容 Tab 標籤”: class.txt內容爲

原创 Hadoop2.x環境搭建2

1、主機master安裝jdk (1) 上傳jdk至linux (2) 解壓jdk //創建文件夾 mkdir /usr/java //解壓 tar zxvf jdk-8u11-linux-i586.tar.gz -C