原创 pandas模塊詳解(一)
數據分析常用模塊之一 主要用於數據處理、數據清洗、獲取保存文件、統計分析 有如下結構: series 一維結構 只有單列的df結構 dataframe 二維結構 比ndarray多了行索引和列索引 panel 三維結構 面板數
原创 pip install 安裝太慢!pip國內源!
國內源: 新版ubuntu要求使用https源,要注意。 清華:https://pypi.tuna.tsinghua.edu.cn/simple 阿里雲:http://mirrors.aliyun.com/pypi/simple/ 中國科
原创 python解析pdf(轉化pdf爲文本)歡迎提問
雖然下面的代碼是在別地學的,但是我也是被挖坑了好多次 # -*- coding: utf-8 -*- from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument
原创 抓取問題:遇到這樣的亂碼你怎麼還原
%3Cdiv%20class%3D%22dqwz%22%3E%u5F53%u524D%u4F4D%u7F6E%uFF1A%u9996%u9875%u653F%u5E9C%u4FE1%u606F html = parse.unqu
原创 python---os模塊相關操作
得到當前工作目錄,即當前Python腳本工作的目錄路徑:os.getcwd() 返回指定目錄下的所有文件和目錄名:os.listdir() 函數用來刪除一個文件:os.remove() 刪除多個目錄:os.removedirs(r“c:\
原创 保存到excel超出長度怎麼辦?
engine ='openpyxl' ds.to_excel('xxx.xls',encoding='utf_8_sig',engine ='openpyxl')
原创 python生成ObjectId對象
#encoding:utf-8 import pymongo from bson import ObjectId dbconnection=pymongo.Connection('localhost',27017) db = dbconn
原创 教你一招!mongodb已存入數據,想去重,這麼辦!
第一步: 將數據導出爲JSON格式存檔: (cmd中直接運行) mongoexport -d database_name -c collection_name -o e:/filename.json 第二步: 清空數據: db.yo
原创 爬蟲,被重定向玩了?你要這麼辦!
requests.get(url, allow_redirects=false)
原创 Python面試
1 Linux 的基本命令(怎麼區分一個文件還是文件夾) s -F 在顯示名稱的時候會在文件夾後添加“/”,在文件後面加“*”。 2 Linux 查看某個服務的端口? netstat -anp | grep service_name
原创 python面試集合
1.1 代碼中要修改不可變數據會出現什麼問題? 拋出什麼異常? 代碼不會正常運行,拋出 TypeError 異常。 1.2 a=1,b=2,不用中間變量交換 a 和 b 的值 方法一:a = a+b b = a-b
原创 python爬蟲驗證碼問題
1.輸入式驗證碼 這種驗證碼主要是通過用戶輸入圖片中的字母、數字、漢字等進行驗證。 解決思路:這種是最簡單的一種,只要識別出裏面的內容,然後填入到輸入框中即可。這種識別技術叫OCR,這裏我們推薦使用Python的第三方庫,tess
原创 正則過濾評論內容中的表情
def filter_emoji(desstr,restr=''): #過濾表情 try: co = re.compile(u'[\U00010000-\U0010ffff]') exce
原创 HTTPS相關面試題
https優點: 1、使用 HTTPS 協議可認證用戶和服務器,確保數據發送到正確的客戶機和服務器; 2、HTTPS 協議是由 SSL+HTTP 協議構建的可進行加密傳輸、身份認證的網絡協議,要比 http 協議安全,可防止數據在傳輸過程