原创 Hadoop集羣搭建教程(完全分佈式)

環境準備: 本案例使用VMware Workstation Pro虛擬機創建服務器來搭建Hadoop集羣,所用軟件及版本及簡要配置方法如下: 1.VMware Workstation Pro15.5.1(推薦使用15以上版本,感覺

原创 python 共現矩陣構建

1.什麼是共現矩陣: 共現矩陣:也成爲共詞矩陣,能表明兩個詞之間的關係程度 2.構建過程: 數據準備: 假設有10篇文本,我們將從這10篇文本中,提取每一篇的分詞結果,並存入Single_text_list中。再將由10篇文章的關

原创 python-word2vec模塊使用詳解

這裏,我們不講word2vec的原理(其實是還了解不透徹,以後明白了再寫,大家在閱讀本文之前,可以先簡單瞭解一下其推理過程),就只瞭解其參數和輸入輸出。網上還有對word2vec用tensorflow進行的實現,以後再說吧。 1.

原创 tensorflow多層卷積網絡實現CNN文本分類

1.實驗數據獲取: 這裏的實驗數據是本人自己提取的,具體方式是: (大家可以根據自己喜好進行如下步驟) 1.選取3個不同類別的文本,每類500篇,共1500篇。 2.使用TF-IDF或詞頻等方式,從每個類型的文本中選出100個特徵

原创 python 暴力破解zip文件

python 破解zip文件 參考於:《python絕技:運用python成爲頂級黑客》 運用python破解zip文件主要是zipfile模塊和extractall方法 zipfile模塊可以實現對zip文件的創建,解壓,和獲取

原创 Hadoop-MapReduce原理及操作(小實驗)

本篇博客原理部分摘取自視頻http://yun.itheima.com/course/301.html 實驗部分教程來自https://www.shiyanlou.com/courses/237 (如果有不理解的可以直接查看上面的

原创 Hadoop-HDFS原理及操作(小實驗)

HDFS原理: HDFS(Hadoop Distributed File System)是一個分佈式文件系統,是谷歌的GFS山寨版本。它具有高容錯性並提供了高吞吐量的數據訪問,非常適合大規模數據集上的應用,它提供了一個高度容錯性和

原创 神經網絡中卷積層和池化層的作用探究

1.前言: 我們知道: 卷積層用於進行特徵提取。 池化層用於輸入的特徵圖進行壓縮,使特徵圖變小,簡化網絡計算複雜度或進行特徵壓縮,提取主要特徵。 但在神經網絡中它們會使輸入的特徵逐步變化成什麼樣?最終得到正確的結果呢?下面我們通過

原创 MNIST數據集使用詳解

數據集下載網址:http://yann.lecun.com/exdb/mnist/ 下載後無需解壓,將其放在一個文件夾下即可: 數據說明: 數據集常被分爲2~3個部分 訓練集(train set):用來學習的一組例子,用來適應分

原创 深度學習中批訓練(batch)與逐個數據訓練對結果的影響的思考(無實驗)

爲什麼會提出這樣的思考? 在之前的實驗中,我總是習慣於使用批訓練的方式向神經網絡中傳入數據(可能是因爲大多數教學都使用MNIST的數據集?)。然而,當我使用我自己提取的數據,再批次傳入模型進行訓練,往往會發現最後得到的準確率總是不

原创 tensorflow RNN實現文本分類(LSTM)

1.數據準備: 這裏的實驗數據是本人自己提取的,具體方式是: (大家可以根據自己喜好進行如下步驟) 1.選取3個不同類別的文本,每類500篇,共1500篇。 2.使用TF-IDF或詞頻等方式,從每個類型的文本中選出100個特徵詞,

原创 python-word2vec使用詳解

這裏,我們不講word2vec的原理(其實是還了解不透徹,以後明白了再寫,大家在閱讀本文之前,可以先簡單瞭解一下其推理過程),就只瞭解其參數和輸入輸出。網上還有對word2vec用tensorflow進行的實現,以後再說吧。 1.Wo

原创 python 共詞矩陣構建

1.什麼是共詞矩陣: 共詞矩陣:共詞矩陣能表明兩個詞之間的關係程度 2.構建過程: 數據準備: 假設有10篇文本,我們將從這10篇文本中,提取每一篇的分詞結果,並存入Single_text_list中。再將由10篇文章的關鍵詞列表合爲

原创 文本聚類學習過程簡述

文本處理 1.去空格,換行符,去停用詞 def delstopwordslist(classsstr): stopwords = [line.strip() for line in open('stop.txt', encod

原创 python讀寫不同格式文本方法

1. txt格式 參考於:廖雪峯python 文件讀寫 讀: 以讀文件的模式打開一個文件對象,Python內置的open()函數 f = open('txt文件地址', '打開模式(默認爲’r‘)', encoding='文件編碼(