原创 python解析並讀取PDF文件:函數總結

目錄 1.PyPDF2 2. pdfminer & pdfminer3k 3. pdfplumber 4. Camelot 雖然PDF文件對文本佈局非常好,容易打印並閱讀,但軟件要將它們解析爲純文本並不容易,Python目前解析PDF的擴

原创 隨機遊走算法

隨機遊走(Random Walk,縮寫爲 RW),又稱隨機遊動或隨機漫步,是一種數學統計模型,它是一連串的軌跡所組成,其中每一次都是隨機的。它能用來表示不規則的變動形式,如同一個人酒後亂步,所形成的隨機過程記錄。因此,它是記錄隨機活動的基

原创 python正則表達式——regex模塊

單詞起始位置、結束位置、分界位置 regex用\m表示單詞起始位置,用\M表示單詞結束位置。 \b:是單詞分界位置,但不能區分是起始還是結束位置。 局部範圍的flag控制 (?flags-flags:...) 在re模塊,flag只能作用

原创 人工智能到底是什麼?人工智能如何改變社會?中國的人工智能應該做怎樣的探索?

目錄 1. 人工智能:是否具備強大學習能力 2. 人工智能:處於改變社會的初級階段 3. 人工智能:健康發展的正確路徑 人工智能模擬、延伸和擴展人類智力。自1956年達特茅斯研討會上,科學家們設想研發一種擁有與人類相媲美的機器智能,首先提

原创 文本查重:difflib.SequenceMatcher

目錄 1. SequenceMatcher FlowChart 1.1 get_matching_blocks()  1.2 find_longest_match() 1.3 ratio() 2. 例子說明 3. 項目需求函數更改 參考

原创 Python:docx模塊

Python讀寫word文檔有現成的庫可以處理。我這裏採用 python-docx。可以用pip install python-docx安裝一下。 這裏說一句,ppt和excel也有類似的庫哦,而且是直接讀取文件裏面的xml數據。所以do

原创 Python:win32com 模塊

win32com 模塊主要爲 Python 提供調用 windows 底層組件對 word 、Excel、PPT 等進行操作的功能,只能在 Windows 環境下使用,並且需要安裝 office 相關軟件才行(WPS也行)。   使用 w

原创 python正則表達式

1. 正則表達式 模式字符串使用特殊的語法來表示一個正則表達式: 字母和數字表示他們自身。一個正則表達式模式中的字母和數字匹配同樣的字符串。比如 'A'、 'a'或者 '0',都是最簡單的正則表達式,它們就匹配自身。你可以拼接普通字符,所

原创 matplot 繪圖總結

 figure = plt.figure() tick_plot = figure.add_subplot(2, 1, 1) tick_plot.plot(X_data, Y_data, label='true', color='gre

原创 聚類算法:DBSCAN密度聚類

目錄 1. 基本概念 2. 算法描述 3. 算法實例 4. 算法優缺點 DBSCAN(Density—Based Spatial Clustering of Application with Noise)算法是一種典型的基於密度的聚類方法

原创 聚類算法:Hierarchical Clustering層次聚類

1. 層次聚類 1.1 層次聚類的原理及分類 1)層次法(Hierarchicalmethods):先計算樣本之間的距離。每次將距離最近的點合併到同一個類。然後,再計算類與類之間的距離,將距離最近的類合併爲一個大類。不停的合併,直到合成了

原创 人工智能:各種知識收集----不斷追加內容

1. 人工智能頂會     CVPR、NAACL、ACL、ICLR、ICML 參考:https://cloud.tencent.com/developer/news/363510

原创 TensorFlow:入門筆記

學習網址:Tensorflow中文社區 http://www.tensorfly.cn/ 一、tensorflow框架筆記 1.Variable        一個Variable代表一個可修改的張量,存在在TensorFlow的用於描述

原创 論文《Attention Is All You Need》及Transformer模型

目錄 1. Introduction 2. 模型結構                        ​ 2.1 Transformer模型 2.2 輸入層 2.3 位置向量:給單詞賦予上下文語境 2.4 注意力機制 2.4.1 Self-

原创 循環神經網絡:RNN、LSTM、GRU、BPTT

目錄 1. RNN 2. BPTT與RNN梯度消失、梯度爆炸 3. LSTM 4. LSTM的變體 5. GRU 1. RNN    https://blog.csdn.net/huwenxing0801/article/details/