原创 Spark GraphX學習(一)Connected Components算法

       現實生活中存在各種各樣的網絡,諸如人際關係網、交易網、運輸網等等。對這些網絡進行社區發現具有極大的意義,如在人際關係網中,可以發現出具有不同興趣、背景的社會團體,方便進行不同的宣傳策略。本文采用Spark GraphX三大算

原创 CentOS6.7 + GTX1070Ti + CUDA 9.0 + cuDNN 7.0.5搭建深度學習環境

顯卡爲GTX1070Ti,這是2017年下半年新出的卡,性能接近GTX1080。一.安裝顯卡驅動1.下載驅動到官網下載:https://www.geforce.com/drivers選擇顯卡型號下載後是一個名爲NVIDIA-Linux-x

原创 基礎算法六:求平方根的問題

求解,也是面試中經常問的一個問題。該問題有兩種解法:二分法和牛頓法。 首先說二分法,首先給定個初始區間範圍[0,n],因爲一定是在這個範圍內,然後比較這個區間的中值的平方和n,如果小於n,將範圍縮小爲[m,n],如果大於n,將範圍縮小爲[

原创 基礎算法五:最長公共子序列問題

計算字符串a和b之間的最長公共子序列(LCS),同樣是一個動態規劃問題。我們需要分兩步解決這個問題。首先,我們要找到字符串a和b之間的最長公共子序列的長度。然後通過逆序查找找到最長公共子序列。 我們用table[i][j]表示字符串a[1

原创 基礎算法四:編輯距離和文本相似度計算

編輯距離是對兩個字符串差異化的量化,其含義是將一個字符串轉化爲另一個字符串所需的最少操作次數,允許的編輯操作包括將一個字符替換爲另一個字符,插入一個字符,刪除一個字符。編輯距離可用在自然語言處理中,用於計算兩個文本之間的相似度。 算法的基

原创 基礎算法二:快速排序

快速排序也是面試中經常問到的算法,人人都應該掌握。快速排序是對冒泡排序的改進,它的基本思想是:採用分而治之的思想,選取一個基準,一趟排序後把數據分成兩部分,一部分都比基準小,另一部分都比基準點大,然後再對這兩部分分別進行上述的操作,直到整

原创 基礎算法三:歸併排序

歸併排序也是採用分而治之的思想,也是一個效率比較高的算法,它通過將已有的有序子序列合併得到完全有序的序列,時間複雜度爲O(NlogN)。JDK底層的排序算法中也用到了歸併排序。 歸併排序的主要步驟如下: 1.分解:將原序列在中間位置劃分爲

原创 基礎算法一:二叉樹層次遍歷

二叉樹的層次遍歷是面試時經常問到的一道編程題,人人都應該掌握。二叉樹的層次遍歷就是按照二叉樹的層次從上到下,從左到右依次遍歷樹中的節點。如下圖所示: 二叉樹該二叉樹層次遍歷順序爲: 1 2 3 4 5 6 7 如果按行輸出就是: 1

原创 卷積神經網絡文本分類模型TextCNN及Tensorflow實現

卷積神經網絡的核心思想是捕捉局部特徵。對於文本來說,局部特徵就是由若干單詞組成的滑動窗口,類似於N-gram。卷積神經網絡的優勢在於能夠自動對N-gram特徵進行組合和篩選,獲得不同抽象層次的語義信息,並且由於權值共享機制,訓練速度也比較

原创 Spark集羣搭建(HA)

集羣規劃 以三臺服務器hadoop02、hadoop03、hadoop04爲例,集羣規劃如下表所示: 搭建過程 1.所需環境 服務器已經安裝好JDK-1.8,Scala -2.11.8,hadoop,zookeeper 2.下載Sp

原创 TensorFlow用訓練好的CNN模型檢測

已預先訓練好了一個識別貓、狗的二分類CNN模型,持久化在了一個cat_vs_dog.pb的文件中。現需要用其進行圖片檢測。1.代碼讀取訓練好的pb文件,用來進行圖片的檢測,代碼爲:import tensorflow as tf impor

原创 TensorFlow實現AlexNet並持久化訓練結果

1.參數設置數據的讀取採用上篇博客中的方法https://blog.csdn.net/zryowen123/article/details/79796387,將上篇的代碼命名爲TFRecord.py,在本篇中進行了引用。import te

原创 Python實現分類器性能度量(混淆矩陣,正確率,準確率,召回率,ROC,AUC)

1.混淆矩陣對於二分類問題,可將樣例根據其真實類別與分類器預測類別的組合劃分爲:真正例(true positive):將一個正例正確判斷爲正例假正例(false positive):將一個反例錯誤判斷爲正例真反例(true negativ

原创 CentOS6.7安裝tensorflow遇到的問題:`GLIBCXX_3.4.19' not found

1.問題描述在CentOS6.7系統上利用Anaconda安裝tensorflow,安裝完後試運行報如下錯:2.原因分析我們所依賴的動態庫版本太低,可以用如下命令查看:strings /usr/lib64/libstdc++.so.6 |

原创 TensorFlow製作、讀取TFRecord格式數據集

TFRecord數據格式是TensorFlow官方推薦的數據格式,不僅規範化讀寫,而且提高了IO效率。1.製作TFRecord數據原始數據爲下圖所示,文件夾名爲類別標號,文件夾中存放的是各個類的圖片:製作TFRecord的代碼爲:impo