原创 工作中常用的liunx 命令
1.批量殺死包含某個程序或端口的進程PID(經常碰到端口占用的情況) lsof -i:8000 | awk '{print $2}'| xargs sudo kill or kill -9 $(lsof -i tcp:808
原创 爬蟲智能解析淺談
智能解析的深度學習切入方向 標題,一般它的字號是比較大的,而且長度不長,位置一般都在頁面上方,而且大部分情況下它應該和 title 標籤裏的內容是一致的 正文,它的內容一般是最多的,而且會包含多個段落 p 或者圖片 img 標籤,
原创 liunx 常用命令
批量殺死包含某個程序或端口的進程PID(經常碰到端口占用的情況) lsof -i:8000 | awk '{print $2}'| xargs sudo kill 查看某個文件夾下各文件的大小/佔用內存(因爲是爬蟲工程師磁盤空間經常
原创 ubuntu python 版本升級後 No module named 'apt_pkg' No module named 'pip._internal'
1.解決No module named 'apt_pkg' sudo apt-get remove python3-apt sudo apt-get install python3-apt 2.解決No module named
原创 Python---爬蟲---清洗---unicode編碼轉成中文顯示問題
unicodestr = '\u4f60\u597d' eval("u"+"\'"+unicodestr+"\'")
原创 python安裝tensorflow出現No matching distribution found for tensorflow
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ --upgrade tensorflow
原创 Python---爬蟲---清洗---jieba分詞
jieba中文處理 和拉丁語系不同,亞洲語言是不用空格分開每個有意義的詞的。而當我們進行自然語言處理的時候,大部分情況下,詞彙是我們對句子和文章理解的基礎,因此需要一個工具去把完整的文本中分解成粒度更細的詞。 jieba就是這樣一個非常好
原创 Python---爬蟲---清洗---phonenumbers(電話號碼解析)
安裝:pip3 install phonenumbers 1.把看似不一樣的號碼規範到同一個號碼 >>> import phonenumbers >>> x = phonenumbers.parse("+442083661177"
原创 Python---爬蟲---清洗---SnowNLP(基礎NLP處理庫)
安裝:pip3 install snownlp from snownlp import SnowNLP s = SnowNLP(data) 1.# 分詞 s.words 2.# 詞語標註 s.tags 3.# 情感分析 s.s
原创 Python---爬蟲---清洗---NLTK
安裝語料庫: import nltk nltk.download() NLTK自帶語料庫: >>> from nltk.corpus import brown >>> brown.categories() ['adventure',
原创 Python---爬蟲---Save---Execel
Execel讀取: 1、導入模塊 import xlrd 2、打開Excel文件讀取數據 data = xlrd.open_workbook('excel.xls') 3、獲取一個工作表 1 table =
原创 Python---爬蟲---清洗---Levenshtein(計算字符串相似度,編輯距離等)
安裝:pip install python-Levenshtein 1.Levenshtein.hamming(str1, str2) ,計算漢明距離。要求str1和str2必須長度一致。是描述兩個等長字串之間對應位置上不同字符的個數。
原创 Python---爬蟲---清洗---LTP
1.調用LTP的API 進入哈工大語言云進行註冊,獲得key # -*- coding: utf-8 -*- import urllib2 url_get_base = "http://api.ltp-cloud.com/analy
原创 Python---爬蟲---反反爬---execjs(python執行js庫)
1.pip3 install PyExecJS 2.需要安裝一個JS運行環境:Node.js 或 PhantomJS。 import execjs # Init environment node = execjs.get()
原创 Python---爬蟲---速---aiomultiprocess
# -*- coding: utf-8 -*- # # Imports # import asyncio import hashlib import time import datetime import json from a