原创 【Python爬蟲練習】虎撲社區步行街版塊首頁信息爬取多線程版本

  #_*_ coding=UTF-8 _*_ import requests from bs4 import BeautifulSoup import queue as Queue import threading headers=

原创 【Python爬蟲練習】虎撲社區步行街版塊首頁信息爬取(BeautifulSoup+MongoDB)

嚴正聲明:爬蟲僅用於學習研究,不做商業或者其它非法用途! 首先我們要爬取的網頁地址爲:https://bbs.hupu.com/bxj  頁面的樣子是這樣的: 紅色圈出來的部分就是我們所要爬取的內容信息。 接下來最重要的自然是頁面元

原创 MySQL發生訪問出錯問題的一般解決辦法

首先,我們看看我們的MySQL服務是否啓動,通過“net start mysql”或者直接在計算機服務中啓動;如果已經啓動可以嘗試重新啓動; 如果問題還沒有解決,那麼下面的方法可能是有效的: 1、找到mysql數據庫的數據存儲位置,即".

原创 (小練習)python+senium爬取安居客二級網頁二手房信息

在每次進行爬蟲代碼的編寫之前,我們的第一步也是最重要的一步就是分析我們的網頁。 在我們本次的例子中,我們需要在每一頁獲取每一個具體房源的鏈接,然後進入到二級網頁獲取詳細的信息,然後再返回上一級網頁重複此過程。 通過分析我們發現在爬取過程中

原创 python正則表達式爬取博客標題

import requests import re headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,

原创 使用xpath爬取個人博客第一頁中的文章標題

import requests import lxml.html headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (

原创 python中的content輸出和text輸出區別以及編碼問題

目錄 content輸出和text輸出區別 優秀的輸出顯示的編碼解決方法   content輸出和text輸出區別 先上代碼 : #_*_ coding=UTF-8 _*_ import requests r=requests.ge

原创 python中print()打印去掉換行

我們知道,在python中,使用print()打印的時候,會默認添加換行符,舉個例子: print('hello') print('world') 輸出: hello world  如果我們理想的狀態是需要打印“hello wor

原创 Python指定文件編碼的方式及區別

參考文檔: http://www.python.org/dev/peps/pep-0263/ 我們在寫python代碼的時候常常會加上如“# -*- coding:utf-8 -*”這樣的註釋,它的作用是什麼呢? # -*- coding

原创 linux使用Quota配額之須配額目錄爲非獨立文件系統並無可分配分區解決辦法

首先,介紹一下現在的環境,我們需要爲/home目錄進行配額,但是呢,/home目錄並非獨立文件系統,而使用Quota進行配額需要在獨立文件系統上進行。 問題環境:須配額目錄爲非獨立文件系統並且磁盤無可分配分區的情況。 解決方案:增加磁盤

原创 linux中pam認證解析

首先了解一下,什麼是linux的pam認證呢? pam認證機制:簡單來說就是linux系統採取的這一種對不同用戶以及系統中的不同服務進行的安全認證機制。 認證流程:linux系統首先確定所需認證的服務,然後加載相應的PAM的配置文件(位

原创 linux中特殊 shell——/sbin/nologin案例解析

我們都知道,在linux系統中有很多的shell,查看shell可以使用“chsh -l”或者“cat /etc/shells ”。 在這些shell裏面,有一個shell——/sbin/nologin卻比較特殊,那麼它到底有什麼特殊,又

原创 linux中的login shell和non-login shell重點解析

我們使用linux的時候會發現,當我們進入系統一進入 bash ,就有一堆變量可以使用,這些東西都是從哪來的呢?這就要歸功於linux系統裏面的配置文件了。當我們的系統啓動之後,它們就會開始讀取我們的配置文件讓我們後續可以正常的使用。 接

原创 linux中查看用戶密碼及密碼破解(加密方式)詳解(/etc/shadow文件)

我們知道linux是一個多用戶的操作系統,也就是說在linux系統中存儲着很多不同用戶的用戶名及密碼。那麼如果某一個用戶的密碼忘記了怎麼辦呢? 首先我們得知道,在linux系統中,用戶名被存放在了/etc/passwd這個文件中;密碼存放

原创 Linux shell腳本編程時bad substitution解決辦法

首先,我們要理解bad substitution的字面意思,它的字面意思是“替換錯誤”的意思。 這種錯誤的原因呢,通常是我們編寫腳本時“{}”和“()”錯誤使用導致的。 比如應該用“()”時,我們用成了“{}”;應該用“()”時,用成了“