原创 Python_文本分析_困惑度計算

這篇博文介紹一個困惑度的神仙方法,困惑度是用來確定最佳主題數一種方式。 本代碼使用4折交叉驗證 LDA裏面有兩個參數需要根據自己的數據等進行設定 import csv import datetime import re imp

原创 python_爬蟲_豆瓣TOP250_url

本文僅供學習使用,如有侵權,聯繫刪除。 獲得豆瓣top 250書單的url import lxml import requests import re import csv from requests.exceptions imp

原创 Python_notebook快捷鍵

1 命令模式快捷鍵 H:顯示快捷鍵幫助 F:查找和替換 P:打開命令面板 Ctrl-Enter:運行當前cell Shift-Enter:運行當前cell並跳轉到下一cell Alt-Enter:運行當前cell並在下方新建cel

原创 Python_notebook魔法函數

在學習過程中梳理了一些好用的魔法函數【持續更新】 % paste – 防止粘貼時候格式錯亂 % timeit – 重複運行計算代碼運行時間 % time – 計算長時間的代碼運行時間 % mode – 控制異常 % debug

原创 Python_數據分析_pandas_06合併與連接

1. 合併與連接 合併與鏈接基於pandas的merge()函數,鏈接的種類分爲一對一鏈接、多對一鏈接、多對多鏈接 1.1 設置合併的鍵 基礎的方式是on 合併的數據集列名不一致時:left_on right_on 1.

原创 Python_數據分析_pandas_04缺失值處理

1. 缺失值處理 缺失值處理主要有三個內容、四個函數:發現缺失值(isnull() notnull())、刪除缺失值(dropna())、填補缺失值(fillna()) 首先創建一個矩陣 1.1 發現缺失值 發現缺失值是生成

原创 Python_數據分析_pandas_03數值運算

1. 運算類型 add(+) sub(-) mul(*) div(/) floordiv(//) mod(%) pow(**)構建兩個DataFrame 1.1 add運算 加固定值、加某一行、加

原创 Python_數據分析_pandas_05數據集合並

1. 合併數據集 基本函數爲:pd.concat(objs, axis=0, join = ‘outer’, join_axes = None, ignore_index = False, verify_intergrity=Fl

原创 Python_數據分析_Pandas_02數據取值與選擇

2.數據取值與選擇 2.1 Series數據選擇方法 2.1.1 將Series看作字典 利用鍵值對索引 利用字典的表達式檢測索引和值 2.1.2 將Series看作一維數組 可以利用索引-顯式、隱式,掩碼進行索引 2

原创 Python_數據分析_Pandas_01pandas對象簡介

三個基本數據結構 pandas有三個基本數據結構:Series,DataFrame和Index 1.1 Series對象 創建對象pd.Series(data, index=index)——data可以是標量,可以是字典;ind

原创 python深度學習_TIP_手寫體數據集導入失敗

1. 問題 在嘗試利用keras進行手寫體識別的過程中,出現了數據集導入失敗的現象,源碼和對應報錯如下: import numpy as np import keras from keras.datasets import mni

原创 SQL_自定義排序

解決方案 用"按字段排序" (ORDER BY FIELD). 語法 ORDER BY FIELD(id, 5, 3, 7, 1) 要注意的是, FIELD 後面是沒有空格的. 因此, 完整的 SQL 爲: SELECT * FR

原创 python_爬蟲_七麥網

本文用於學習交流使用,如有侵權,聯繫刪除 1 爬取需求 1.1 七麥網簡介 七麥網(https://www.qimai.cn/),該平臺支持提供iOS、Android應用市場、微信、小程序等數據查詢,是同時打通App數據、微信公衆

原创 python_數據分析_正則表達式

正則表達式就是記錄文本規則的代碼,我們將從正則表達式基礎和re模塊實現兩個方面來說 1.正則表達式基礎 正則表達式主要學習元字符,可以參考百度進行:https://baike.sogou.com/v107588.htm?fromT

原创 Python_數據分析_numpy模塊

numpy可以說是Python運用於人工智能和科學計算的一個重要基礎,關於庫的引入不做贅述,主要分享一些總結的numpy庫的用法。 1. numpy數組對象 Numpy中的多維數組稱爲ndarray,這是Numpy中最常見的數組對