原创 公交信息爬取

參考文章:https://blog.csdn.net/WenWu_Both/article/details/70168760?depth_1-utm_source(中間部分有改動) import requests ##導入requ

原创 分組排列row_number() over

row_number() over(partition by 分組列 order by 排序列 desc降序/asc升序) 對查詢結果進行排序,不分組(增加rank一列是序列號,語句執行結束時三列,id,salary,rank):

原创 dataframe值替換

1、用loc方式,適合限制條件的元素值替換或填充 df.loc[df['count']==20,'是否入圍']=1 2、用apply方式,適合元素值直接替換 df.apply(lambda x:x.replace('nan%',

原创 python合併文件夾下的Excel

import pandas as pd from os import walk for root,dirs,files in walk(r'D:datas',topdown=False):#topdown處理子目錄,False爲不

原创 python查看excel所有sheetname

import pandas as pd df=pd.ExcelFile(文件路徑) sh=df.sheet_names sh

原创 dataFrame重設索引

1,dataframe將某列設置爲索引 df.set_index(‘列名’,inplace=True) 2,dataFrame重設0開設有序遞增1的索引,不設參數drop=True,則原索引會做作爲一列(列名爲’index‘)被保

原创 python爬取視頻

爬蟲步驟拆解: 1、分析目標網頁,確定爬取的URL路徑,header參數:打開網頁地址,右擊–檢查,Network–Hide data URLs(篩選功能)–XHR並在headers下獲取user-agent、cookie參數

原创 自然語言處理之snownlp

snownlp是一個很方便的自然語言處理庫 1、安裝方式:pip install snownlp 2、常見用法包括分詞、詞性標註、斷句、情感分析、轉化爲拼音、轉化爲繁體、關鍵字抽取、概括總結、TFIDF詞頻分析,相似性分析等 3、

原创 jieba.analyse+詞性標註+統計出場次數+sklearn計算tfidf值

import jieba.analyse sentence='故今日之責任,不在他人,全在我少年。少年智,則國智。少年富,則國富。少年強,則國強。少年獨立,則國獨立。少年自由,則國自由。少年進步,則國進步。少年勝於歐洲,則國勝於歐

原创 利用tfidf、gensim計算文本相似度

文本相似度分析的過程: 文本分詞、語料庫製作、算法訓練以及結果預測 主要工具: Jieba分詞、gensim製作語料並進行算法訓練 import jieba import gensim #分詞並獲取詞袋函數(爲每個出現在語料庫中

原创 pd.cut

常用方式總結: import pandas as pd da=data['case_count'].describe([0.2,0.4,0.6,0.8]) bins=[0,da['20%'],da['40%'],da['60%']

原创 python自動切分excel表格

一、利用loc定位行,直接寫入Excel(若切分後的表格比較多,可引入參數) import pandas as pd data=pd.read_excel(r'D:\tmp\data.xlsx') da1=data.loc[0:1

原创 pandas多列拼接

df['addr2']=df['addr_bd'].str.cat(df['addr_gd'])#用兩列拼接結果創建新列 df['addr2']=df['addr_bd'].str.cat(df['addr_gd'],sep='|

原创 Python中groupby後的索引處理

想在groupby後保持groupby列的爲正常列有兩種方式: 1、利用groupby中的as_index參數 data.groupby('city',as_index=False)['是否中標'].count() 2、grou

原创 爬取排名前100的電影信息

import time import json import requests from bs4 import BeautifulSoup def get_one_page(url): try: head