原创 pandas模塊詳解(一)

數據分析常用模塊之一 主要用於數據處理、數據清洗、獲取保存文件、統計分析 有如下結構: series  一維結構  只有單列的df結構 dataframe  二維結構  比ndarray多了行索引和列索引 panel  三維結構  面板數

原创 pip install 安裝太慢!pip國內源!

國內源: 新版ubuntu要求使用https源,要注意。 清華:https://pypi.tuna.tsinghua.edu.cn/simple 阿里雲:http://mirrors.aliyun.com/pypi/simple/ 中國科

原创 mongo數據類型

原创 python解析pdf(轉化pdf爲文本)歡迎提問

雖然下面的代碼是在別地學的,但是我也是被挖坑了好多次  # -*- coding: utf-8 -*- from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument

原创 抓取問題:遇到這樣的亂碼你怎麼還原

%3Cdiv%20class%3D%22dqwz%22%3E%u5F53%u524D%u4F4D%u7F6E%uFF1A%u9996%u9875%u653F%u5E9C%u4FE1%u606F     html = parse.unqu

原创 python---os模塊相關操作

得到當前工作目錄,即當前Python腳本工作的目錄路徑:os.getcwd() 返回指定目錄下的所有文件和目錄名:os.listdir() 函數用來刪除一個文件:os.remove() 刪除多個目錄:os.removedirs(r“c:\

原创 保存到excel超出長度怎麼辦?

engine ='openpyxl' ds.to_excel('xxx.xls',encoding='utf_8_sig',engine ='openpyxl')

原创 python生成ObjectId對象

#encoding:utf-8 import pymongo from bson import ObjectId dbconnection=pymongo.Connection('localhost',27017) db = dbconn

原创 教你一招!mongodb已存入數據,想去重,這麼辦!

第一步: 將數據導出爲JSON格式存檔: (cmd中直接運行) mongoexport -d database_name -c collection_name -o e:/filename.json  第二步:  清空數據:  db.yo

原创 爬蟲,被重定向玩了?你要這麼辦!

requests.get(url, allow_redirects=false)

原创 Python面試

1 Linux 的基本命令(怎麼區分一個文件還是文件夾) s -F 在顯示名稱的時候會在文件夾後添加“/”,在文件後面加“*”。 2 Linux 查看某個服務的端口? netstat -anp | grep service_name

原创 python面試集合

1.1 代碼中要修改不可變數據會出現什麼問題? 拋出什麼異常? 代碼不會正常運行,拋出 TypeError 異常。 1.2 a=1,b=2,不用中間變量交換 a 和 b 的值 方法一:a = a+b        b = a-b 

原创 python爬蟲驗證碼問題

1.輸入式驗證碼     這種驗證碼主要是通過用戶輸入圖片中的字母、數字、漢字等進行驗證。 解決思路:這種是最簡單的一種,只要識別出裏面的內容,然後填入到輸入框中即可。這種識別技術叫OCR,這裏我們推薦使用Python的第三方庫,tess

原创 正則過濾評論內容中的表情

def filter_emoji(desstr,restr=''):      #過濾表情       try:          co = re.compile(u'[\U00010000-\U0010ffff]')      exce

原创 HTTPS相關面試題

https優點: 1、使用 HTTPS 協議可認證用戶和服務器,確保數據發送到正確的客戶機和服務器; 2、HTTPS 協議是由 SSL+HTTP 協議構建的可進行加密傳輸、身份認證的網絡協議,要比 http 協議安全,可防止數據在傳輸過程