原创 珍惜那些在背後默默爲你付出的人

       從初中就開始我就在學校寄宿,可我每次回家,看到我的房間永遠都是乾淨的,牀單被罩都被洗過了並被曬過了,然後鋪的很整潔的牀。然而曾經的的我並沒有什麼特別的感觸,一切貌似覺得理所應當。所有我整理不好的東西,媽媽都會事後幫我整理好,

原创 python數據分析---Numpy數組對象(5)

一:組合數組1:水平、垂直組合:2:a與b的每一行變成新數組的每一列3:數組的水平分割4:數組的垂直分割:5:深度分割:

原创 urllib實戰5--爬取CSDN首頁博文(022)

一:目標     爬取CSDN首頁的博文文章,並保存到本地。二:實戰    運行結果出不來,明天再看看,先留個疑問在這。

原创 自然語言處理-------jieba

jieba“結巴”中文分詞:做最好的 Python 中文分詞組件特點支持三種分詞模式:精確模式,試圖將句子最精確地切開,適合文本分析;全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義;搜索引擎模式,在精確模式

原创 urllib實戰4--新聞爬蟲(020)

一:需求與思路      需求:將新浪新聞的首頁的所有新聞爬取到本地   http://news.sina.com.cn/      思路:首先爬首頁,通過正則表達式獲取所有的新聞鏈接,然後依次爬取新聞,並存儲到本地。二:實戰     運

原创 urllib實戰----使用代理服務器爬取網頁(021)

一:代理服務器:代理服務器是處於我們互聯網中間的服務器,如果使用代理服務器,我們在瀏覽信息的時候先向代理服務器發出請求,然後由代理服務器向互聯網獲取信息,再返回給我們。如果我們訪問互聯網絡,就是直接訪問,互聯網服務器有信息之後就會把信息返

原创 數據挖掘的簡介(1)

一:數據挖掘的主要過程:1:定義目標2:獲取數據(爬蟲或者下載一些統計網站的數據)3:數據探索:4:數據預處理(數據清洗、數據集成、數據變換、數據規約:將數據精簡的過程)5:挖掘建模(分類、聚類、關聯、預測)6:模型評價與發佈二:相關模塊

原创 機器學習典型應用1--關聯規則

數據-->機器學習算法--->智能應用:1:關聯規則(啤酒和尿片的故事)聲明:  機器學習系列主要記錄自己學習機器學習算法過程中的一些參考和總結,其中有部分內容是借鑑參考書籍和參考博客的。目錄:什麼是關聯規則關聯規則中的必須知道的概念關聯

原创 01網頁前端HTML——超鏈接

一:語法格式: <a href="url" target="打開方式">鏈接標題</a> 二:target屬性:   屬性值 說明 parent 當前窗口的上級窗口 blank 在新窗口打開 self 在同一窗口打開 top 在瀏覽器的

原创 python內置數據結構--元組、列表、字典、序列基本操作

點贊 收藏 分享 文章舉報 lemon_wsm 發佈了45 篇原創文章 · 獲贊 13 · 訪問量 2萬+ 私信 關注

原创 抓包分析工具fiddler(025)

一:抓包分析概述抓包分析,就是將網絡傳輸發送與接收的數據包進行抓取的操作,做爬蟲時,數據並不一定在HTML源碼中,很可能隱藏在一些網址中,所以我們要抓取某些數據進行抓包,分析出對應數據所隱藏在的網址,然後分析規律並爬取。二:使用fiddl

原创 建模基礎(3)

一任務分類: 點贊 收藏 分享 文章舉報 lemon_wsm 發佈了45 篇原創文章 · 獲贊 13 · 訪問量 2萬+ 私信

原创 python數據分析中data_dict={h:v for h,v in zip(header,zip(header,zip(*value)}的含義

zip函數的原型爲:zip([iterable, …])參數iterable爲可迭代的對象,並且可以有多個參數。該函數返回一個以元組爲元素的列表,其中第 i 個元組包含每個參數序列的第 i 個元素。返回的列表長度被截斷爲最短的參數序列的長

原创 python數據分析與數據挖掘numpy與pandas模塊的使用(2)

一:numpy相關的操作1數組的創建:numpy.array(  [ ["元素1","元素2"],["元素1","元素2"],["元素1","元素2"] ]  )  生成數組  arange、zeros、onesbool類型:(1)矢量化

原创 python數據分析---Numpy通用函數(6)

一:一元ufunc:是一種對ndarray中的數據執行元素級運算的函數返回一個數組:返回多個數組:二:2元ufunc:接受2個數組元,返回一個結果數組三:利用數組進行數據處理  meshgrid()函數:         生成網格採樣點的