原创 【MySQL】基礎學習全解(一)

這篇博客主要是筆者爲了準備秋招的數據分析崗位,然後整理的數據庫的一下基本概念,如果有什麼不對的地方,歡迎各位通過QQ郵箱:1391716398與筆者進行聯繫和溝通。 1、介紹 數據庫模型 · 層次模型 · 網狀模型 · 關係模型

原创 李航統計學習方法——感知機的實現

筆者,即將大四了,面臨秋招的挑戰,筆者以後想從事數據分析的相關工作,暑假實習自己在一家小公司做數據分析的工作,但是所接觸到的工作內容都是比較偏業務方向的,偏技術的比重並沒有我想象中的那麼高,因此我想抓緊時間複習一下,加上之前看過臺

原创 beautiful-soup

title:爬蟲系列之 beautiful soup date: 2019-04-16 09:59:18 tags: 正則表達式 categories: 爬蟲 toc: true 前面介紹了正則表達式的相關用法,但是一旦正則表達式

原创 正則表達式實戰

title: 爬蟲系列之正則表達式實戰 date: 2019-04-15 23:14:30 tags: 正則表達式 categories: 爬蟲 toc: true 前言 我們前面已經詳細的瞭解過了正則表達式的具體功能和用法,今天

原创 正則表達式

title: 爬蟲系列之正則表達式 date: 2019-04-15 15:42:15 tags: 爬蟲 categories: 爬蟲 toc: true 什麼是正則表達式 正則表達式是對字符串操作的一種邏輯公式,就是 事先定義好

原创 如何統計文本中出現的每個單詞的次數

統計文本出現的每個每個單詞的次數,並列出頻率最高的前五個單詞 # coding=utf-8 from random import randint # 讀取文本 with open('test.txt') as t: conten

原创 如何拆分含有多種分隔符的字符串

對於分割字符牀,我們通常想到的都是運用字符串中的split()方法來進行分割,但是此種方法只能分割單一分割符。比如:對於多個分割符的字符串s,我們如果用split的方法進行分割時就會報錯: s='ab;cd|efg|hi,jkl|mn\

原创 Python中split字符串

Python中的split字符牀詳解: split翻譯爲分裂,在python中split()則是將一個字符串分裂成多個字符串組成的列表 split的分裂規則是:當split()不帶參數時,按空字符(包括空格符,換行符,製表符等空字符)進行

原创 運用Beautifulsoup對新聞網站進行簡單的爬取

利用BeautifulSoup可以很簡單的爬取網頁上的內容。這個套件可以把一個網頁變成DOM tree 要使用BeautifulSoup需要使用命令行進行安裝,不過也可以直接用python的ide。 基礎操作 : ① 使用之前需要先從bs

原创 如何根據字典中值的大小,對字典中的項排序

實際案例 某班英語成績以字典形式存儲爲{‘Li’:79, ‘Jim’:88, ‘Lucy’:92, …},根據成績高低,計算學生排名。 這裏我們將利用內置函數sorted對學生的英語成績排名。 方法一: 首先,我們利用zip()將字典轉化

原创 分詞學習(3),基於ngram語言模型的n元分詞

           最大概率分詞中,認爲每個詞的概率都是獨立的,但是有一部分詞,其切分卻與前一個詞密切相關,特別是中文分詞中更爲明顯,英文中就是如上一篇文章中的“tositdown”的例子。          這樣就可以使用2元模型,

原创 統計分詞/無字典分詞學習(2):n-gram詞頻統計

 我們現在面對的是“wheninthecourseofhumaneventsitbecomesnecessary”這樣一堆語料,要獲取詞典,怎麼辦? 第一步肯定是找到所有可能是詞的片段了,常用的方法就是n-gram切分了,如假設詞的最

原创 python字典元素的讀取

1.根據字典的鍵讀取鍵對應的值,鍵不存在時拋出異常 >>> a={'apple':'蘋果','banana':'香蕉','pear':'梨'} >>> a['apple']'蘋果' >>> a[b]Traceback (most rece

原创 對文章單詞的字母個數的計算

首先是先把每篇文章裏的單詞用正則表達式切分出來,然後放進一個list裏面,然後再將這個list裏面的元素一一遍歷,每次遍歷後的結果都是用正則對這個單詞進行切分,將得到的結果就是用另一個list保存起來,最後求這個list的長度就是每個單詞

原创 對於2-gram 條件下對英語文本的分詞處理

#coding=utf-8 import re #得到1元條件下的分詞,並將這些分詞加入到list中 with open('/home/zheng/firstproject/lecture.txt', 'r') as lecture: