原创 從Seq2seq到Pointer-Generator Networks

文章目錄1 seq2seq1.1 爲什麼誕生seq2seq1.2 基本概述1.3 訓練和預測2 注意力機制 Attention2.1 爲什麼會誕生Attention2.2 基本概述內容向量權重$a_{i,j}$得分函數3 poni

原创 tenliu的爬蟲(8)-頁面提取之beautifulsoup

文章目錄歷史回顧安裝介紹加載html四種對象類型定位節點通過標籤名稱定位加入節點關係選擇多個標籤加入正則表達式(標籤名)通過屬性的鍵值選擇標籤加入正則表達式(屬性)節點內文本stringstrings節點屬性其他 歷史回顧 1.爬蟲

原创 tenliu的爬蟲(6)- 頁面提取之正則表達式

文章目錄歷史回顧正則語法python正則提取文章標題提取無序列表 歷史回顧 1.爬蟲專題大綱 2.urllib、urllib2、request三者關係 3.urllib學習 4.urllib2學習 5.requests學習 ps:如

原创 tenliu的爬蟲(7)-頁面提取之xpath

文章目錄歷史回顧xpath學習一切皆節點節點關係父節點子節點兄弟節點路徑表達式節點選擇基本規則選擇結點的謂語xpath軸xpath運算符xpath函數python的lxml包頁面分析基本練習相對路徑提取文本提取屬性絕對路徑進階練習方法

原创 爬蟲知識整理大綱

更多內容請訪問我的個人博客www.tenliu.top 爬蟲看似簡單,但是深入學習還是挺有意思的。我學習爬蟲也有段時間了,現在開這個專題,算是一個回顧。在這裏列一個大綱: 基本爬蟲知識python庫urllib、urllib2、requ

原创 tenliu的爬蟲-urllib2學習

更多內容請訪問我的個人博客www.tenliu.top 前言 歷史回顧: - 爬蟲專題大綱 - 爬蟲-抓包分析 - urllib、urllib2、requests概述及三者關係 - 爬蟲-urllib學習 我們知道通過urllib

原创 tenliu的爬蟲-爬蟲-python庫urllib、urllib2、requests關係

更多內容請訪問我的個人博客www.tenliu.top 開篇語 抓取始終是一個很大的需求,小到單個頁面,某個站點,大到搜索引擎(百度、谷歌)的全網抓取。 只要人能看到的東西,理論上都是爬蟲可以獲取的。不論靜態頁面還是動態頁面。也不論pc

原创 python操作hbase 遠程連接

更多內容請訪問我的個人博客 目的 用python操作hbase。 這裏是在linux上搭建的是一個測試環境,所以hbase是單機版本安裝,安裝thrift是爲了支持python操作hbase。 網上也有類似教程,但是坑也不少,這裏記錄

原创 BloomFilter(布隆過濾器)原理和python支持庫

更多內容請訪問我的個人博客www.tenliu.top 簡介   Bloom Filter(布隆過濾器)是一種多哈希函數映射的快速查找算法。通常應用在需要快速判斷一個元素是否屬於集合,但是並不是嚴格要求100%正確的場合。   即Blo

原创 tenliu的爬蟲-python的urllib庫

更多內容請訪問我的個人博客www.tenliu.top 前言 歷史回顧: 爬蟲專題大綱 爬蟲-抓包分析 urllib、urllib2、requests概述及三者關係 爬蟲-urllib學習 學習第一個庫:urllib 我們先從urll

原创 twisted之defer延遲

更多內容請訪問我的個人博客www.tenliu.top twisted之defer 工作中一項目,其中一個環節比較耗時,又無法解耦合,流程中下一環節必須等待這個環節結果。由此想到異步框架twisted的延遲defer,之前只是知道有這麼個

原创 tenliu的爬蟲-requests學習

更多內容請訪問我的個人博客www.tenliu.top 歷史回顧: 爬蟲專題大綱 爬蟲-抓包分析 urllib、urllib2、requests概述及三者關係 爬蟲-urllib學習 爬蟲-urllib2學習 通過以上學習,爬蟲算是入

原创 LDA原理(2)知識儲備之貝葉斯派和概率派

更多內容請訪問我的個人博客www.tenliu.top 介紹貝葉斯派和概率派 概率派認爲要推斷的參數是固定的值,雖然概率是未知的,但是一定是固定的值,同時樣本是隨機的,既然這樣,他們的側重點就是研究樣本空間,比如我們不知道拋硬幣正面朝上的

原创 LDA原理(3)知識儲備之PLSA

更多內容請訪問我的個人博客www.tenliu.top 在講PLSA概率潛在語義模型(似乎比LSA更容易解釋 啊)之前 我們先定義一些表示: D表示語料庫 M表示該語料庫中有M篇文檔 V表示語料庫中的詞的個數(當然重複的詞只算一次)

原创 LAD原理(1)知識儲備之函數和分佈

更多內容請訪問我的個人博客www.tenliu.top 簡介 LDA是一種主題模型,它基於這樣的思想:人寫文章可以理解成這樣的過程,再寫一篇文檔之前,先有這篇文檔的主題分佈(文檔-主題),每一個主題也有詞分佈(主題-詞) 知識儲備 我們先