原创 數據庫中表建立索引的優缺點

優點: 1.通過創建唯一性索引,可以保證數據庫表中每一行數據的唯一性。  2.可以大大加快數據的檢索速度,這也是創建索引的最主要的原因。      3.可以加速表和表之間的連接,特別是在實現數據的參考完整性方面特別有意義。   4.在使用

原创 NLP之文本預處理

對於自然語言處理的話,預處理其實就是有那麼幾個固定的步驟: 分詞,英文的話全部轉換爲小寫,去除標點符號,提取詞幹,出去不是英文的單詞,出去特殊的符號,修正錯別字。 1.分詞 (Tokenization) Token 是符號,包括了單詞還有

原创 spark環境idea與sbt的配置

sbt下載官網: https://www.scala-sbt.org/download.html,我下載的是msi安裝包,默認安裝改個文件夾就行 sbt默認源基本是連不上的,安裝完Scala,idea(idea要裝scala插件)和sbt

原创 用本機VM虛擬機作爲網站的服務器

1、建立好虛擬機(配置好網絡,上圖的方式) 2、在虛擬機裏安裝系統,如(Server2003) 3、在虛擬機上安裝好VMTOols。(可以不用安裝) 4、配置好虛擬機裏的網絡(先用自動獲取IP方式),讓虛擬要可以上網。 7、虛擬機裏的系統

原创 服務器搭建本地局域網下載文件(sz下載大文件總是出問題)

sz 大文件的時候傳到一半中斷不傳輸 1)進入到文件目錄(該目錄將成爲根目錄) 2) 執行python -m SimpleHTTPServer,獲取端口號,一般port是8000。如果想更改端口號,直接在後面加端口號就可以。比如想更改爲8

原创 Python實現Xgboost模型

1.下載xgboost包文件:https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 2.安裝xgboost包:命令管理器輸入 pip install G:\GoogleDownload\x

原创 python 實現 kill 電腦系統當前進程

.先在cmd窗口輸入tasklist查看當前進程列表,找到要kill的進程名,比如要kill谷歌瀏覽器: 這裏可以看到谷歌瀏覽器的進程名: chrome.exe 然後在python窗口輸入以下代碼: import os os.sys

原创 Python-線性迴歸模型預測絕地求生玩家排名

比賽官網:Kaggle絕地求生數據集 比賽描述:在PUBG遊戲(絕地求生)中,每場比賽最多有100名玩家,玩家可以在團隊上根據有多少其他團隊在被淘汰時還活着而在遊戲結束時排名。在遊戲中,玩家可以獲得不同的彈藥,恢復被擊倒但未被擊殺的隊友,

原创 Python爬蟲實現破解58同城加密內容

在爬取58同城租房信息的聯繫號碼時,發現抓取的‘13823661900’對應的內容是‘龒鑶龤驋鑶餼餼龒鵂閏閏’ 看起來應該是字體加密,字體加密一般是網頁修改了默認的字符編碼集,在網頁上加載的網頁定義的字體文件作爲字體的樣式,可以正確地顯

原创 Python實現GBDT(參數介紹;調用;調參)

GBDT(Gradient Boosting Decision Tree),每一次建立樹模型是在之前建立模型損失函數的梯度下降方向,即利用了損失函數的負梯度在當前模型的值作爲迴歸問題提升樹算法的殘差近似值,去擬合一個迴歸樹。GBDT應用有

原创 Python3進行中文文章分詞實現詞雲圖與TOP詞頻統計

工具:Python 3 一下是代碼,實現對docx文件的中文文章分詞以及作詞雲圖、TOP詞頻統計 import docx import jieba from scipy.misc import imread import numpy a

原创 Python爬蟲突破某360查詢網站反爬驗證碼

某360查詢網址同一ip頻繁訪問的話會彈出驗證碼, 該驗證碼特點:get獲取的驗證碼圖片和網頁展現的不一致(所以無法通過圖像識別破解);該驗證碼是針對ip,輸入驗證碼後會給出一個大概一天有效期的cookie,在此階段可以大量頻繁訪問了。

原创 Python圖像識別驗證碼處理之opencv切割驗證碼

切割驗證碼 >> 標註驗證碼 >> 訓練模型 >> 識別驗證碼 ''' opencv做圖像處理,所以需要安裝下面兩個庫 pip3 install opencv-python ''' import cv2 import matplot

原创 python包安裝失敗以及pip更新失敗解決方法

.一、網絡原因安裝失敗拋出錯誤timeouterror 使用鏡像網址更新pip: python -m pip install --upgrade pip -i http://pypi.douban.com/simple --trusted

原创 Python對同一函數不同參數實現多線程操作

此方法用於爬蟲效果極優 import threading import time def testa(n): while True: time.sleep(1) print(n) #先隔出一秒打印出a,再過一秒打出b ts