原创 三張圖告訴你python爬蟲時轉換\u中文字符的“坑”

一勞永逸的方法: s=s.replace("'",'"') s=s.replace("\n",'')

原创 django分頁技術django-pagination和Paginator(基礎篇)

轉載前還請註明出處:http://blog.csdn.net/gugugujiawei 一、概述 幾乎所有的web應用,都需要分頁功能,但分頁技術總體來說分兩種,一種是全部加載,存於瀏覽器的緩存中,一種是分頁訪問,部分加載。前一種方法優點

原创 【python web學習】python web窺探

<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">

原创 mongodb在python中的應用——利用pymongo和mongoengine

一、前文           Django 是一種 Python Web 框架,由對象關係映射器 (ORM)、後端控制器和模板系統組成。MongoDB 是一種面向文檔的數據庫(也稱爲 NoSQL 數據庫),能有效地進行擴展並提供高性能。

原创 ubuntu下發布Django Web的兩種方法

一、利用django自帶服務器框架發佈web       系統管理員經常需要SSH 或者telent 遠程登錄到Linux 服務器,經常運行一些需要很長時間才能完成的任務,比如系統備份、ftp 傳輸等等。通常情況下我們都是爲每一個這樣的

原创 EM算法嗅探

一、前言 在統計計算中,最大期望(EM)算法是在概率模型中尋找參數最大似然估計或者最大後驗估計的算法,其中概率模型依賴於無法觀測的隱藏變量(Latent Variable)。最大期望經常用在機器學習和計算機視覺的數據聚類(Data Clu

原创 通過歡迎度對網頁排名

一、歡迎度歷史 1998年 Jon Kleinberg致力於HITS的萬維網搜索引擎項目,其中的算法使用了萬維網的超鏈接結構來改進搜索引擎所得的結果。 同時,在離他很近的斯坦福大學裏,兩名博士生正在從事一項名爲PageRank的類似項目,

原创 CSDN博客遷移

@author: enjoyhot 代碼下載:github 一、綜述 最開始的博客用的是oschina, 自我感覺小清新,支持比較多風格的編輯器,容易編輯程度比csdn的要好。後來因爲csdn人氣的關係,又轉到csdn,不過csdn

原创 【machine learning】樸素貝葉斯分類方法

一、概述 1.1 貝葉斯決策 本文主要講述利用樸素貝葉斯進行分類的問題。樸素貝葉斯是貝葉斯決策理論的一部分,所以講述樸素負葉斯之前有必要快速瞭解一下貝葉斯決策理論。 我們現在用p1(x,y)表示數據點(x,y)屬於類別1,用p2(x,y

原创 php、python、ruby——web腳本語言的比較

原文地址:http://klau.si/php-vs-python-vs-ruby 摘要 在過去幾年裏,在web應用程序編程中,腳本語言變得越來越受歡迎。本論文試圖在如今三種最受歡迎的語言:PHP、Python和Ruby中找到其中的差異

原创 網絡爬蟲框架scrapy介紹及應用——抓取新浪新聞的標題內容評論

一、綜述 開始這篇博文之前,調研了相關的爬蟲方法,簡單羅列冰山一角。 綜述:http://www.crifan.com/summary_about_flow_process_of_fetch_webpage_simulate_login

原创 PageRank模型中的參數與其敏感性分析

附註:本博文內容對應書本5、6章 一、α 因子 上一篇博客中引入參數a來產生谷歌矩陣: 當a→1時,冪法所需要的期望迭代次數急劇上升。如下表所示: 當a→1時,由跳轉矩陣所帶來的人爲成分會減少,但計算時間卻增加了。常數a不僅僅控制了

原创 django分頁技術Paginator(進階篇)

一、概述 在之前的另一篇博文中介紹了在django中進行分頁的兩種方法,可是說基本上實現了分頁刷新的功能,但存留一個問題,那就是當頁數多的時候,會出現所有頁碼排開的情況,美觀性不好不說,更主要的是當頁碼多的時候,分頁欄會變得很長。所以對之

原创 【machine learning】linear regression

一、曲線擬合   1、問題引入 ①假設現在有一份關於某城市的住房面積與相應房價的數據集 表1    居住面積與房價關係 圖1    居住面積與房價關係 那麼給定這樣一個數據集,我們怎麼學習出一個以住房面積大小爲自變量的用於預測該城市

原创 網頁排名PR值及其他——搜索引擎排序的科學(啓)

在開始寫搜索引擎PR值系列前,說明一下: 該系列來自《網頁排名PR值及其他——搜索引擎排序的科學》,作者Amy N.Langville和Carl D.Meyer,看了1/3,,內容由淺及深,感覺不錯,適合即將涉及搜索領域的同學。 之後將