原创 工作中常用的liunx 命令

1.批量殺死包含某個程序或端口的進程PID(經常碰到端口占用的情況) lsof -i:8000 | awk '{print $2}'| xargs sudo kill    or    kill -9 $(lsof -i tcp:808

原创 爬蟲智能解析淺談

智能解析的深度學習切入方向 標題,一般它的字號是比較大的,而且長度不長,位置一般都在頁面上方,而且大部分情況下它應該和 title 標籤裏的內容是一致的 正文,它的內容一般是最多的,而且會包含多個段落 p 或者圖片 img 標籤,

原创 liunx 常用命令

批量殺死包含某個程序或端口的進程PID(經常碰到端口占用的情況) lsof -i:8000 | awk '{print $2}'| xargs sudo kill  查看某個文件夾下各文件的大小/佔用內存(因爲是爬蟲工程師磁盤空間經常

原创 ubuntu python 版本升級後 No module named 'apt_pkg' No module named 'pip._internal'

1.解決No module named 'apt_pkg'  sudo apt-get remove python3-apt sudo apt-get install python3-apt  2.解決No module named

原创 Python---爬蟲---清洗---unicode編碼轉成中文顯示問題

unicodestr = '\u4f60\u597d' eval("u"+"\'"+unicodestr+"\'")

原创 python安裝tensorflow出現No matching distribution found for tensorflow

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ --upgrade tensorflow

原创 Python---爬蟲---清洗---jieba分詞

jieba中文處理 和拉丁語系不同,亞洲語言是不用空格分開每個有意義的詞的。而當我們進行自然語言處理的時候,大部分情況下,詞彙是我們對句子和文章理解的基礎,因此需要一個工具去把完整的文本中分解成粒度更細的詞。 jieba就是這樣一個非常好

原创 Python---爬蟲---清洗---phonenumbers(電話號碼解析)

安裝:pip3 install phonenumbers  1.把看似不一樣的號碼規範到同一個號碼 >>> import phonenumbers >>> x = phonenumbers.parse("+442083661177"

原创 Python---爬蟲---清洗---SnowNLP(基礎NLP處理庫)

安裝:pip3 install  snownlp from snownlp import SnowNLP s = SnowNLP(data) 1.# 分詞 s.words 2.# 詞語標註 s.tags 3.# 情感分析 s.s

原创 Python---爬蟲---清洗---NLTK

安裝語料庫: import nltk nltk.download() NLTK自帶語料庫: >>> from nltk.corpus import brown >>> brown.categories() ['adventure',

原创 Python---爬蟲---Save---Execel

Execel讀取: 1、導入模塊       import xlrd 2、打開Excel文件讀取數據        data = xlrd.open_workbook('excel.xls') 3、獲取一個工作表 1 table =

原创 Python---爬蟲---清洗---Levenshtein(計算字符串相似度,編輯距離等)

安裝:pip install python-Levenshtein 1.Levenshtein.hamming(str1, str2) ,計算漢明距離。要求str1和str2必須長度一致。是描述兩個等長字串之間對應位置上不同字符的個數。

原创 Python---爬蟲---清洗---LTP

1.調用LTP的API 進入哈工大語言云進行註冊,獲得key # -*- coding: utf-8 -*- import urllib2 url_get_base = "http://api.ltp-cloud.com/analy

原创 Python---爬蟲---反反爬---execjs(python執行js庫)

1.pip3 install PyExecJS  2.需要安裝一個JS運行環境:Node.js 或 PhantomJS。 import execjs # Init environment node = execjs.get()

原创 Python---爬蟲---速---aiomultiprocess

# -*- coding: utf-8 -*- # # Imports # import asyncio import hashlib import time import datetime import json from a