原创 【實戰】TF-IDF,WORD2VEC,機器學習算法,深度學習算法在新浪新聞分類表現。

新聞分類系統的實現1 系統開發工具和平臺  本文選擇Python作爲主要開發語言,作爲一個簡潔而又強大的腳步語言,Python整合了大量的第三方數據分析,算法處理框架,爲開發帶來極大的便利。系統完整開發工具如圖所示:  圖1 分類系統開發

原创 panda DataFrame 數據合併,連接(merge,join,concat)

merge  通過鍵拼接列pandas提供了一個類似於關係數據庫的連接(join)操作的方法<Strong>merage</Strong>,可以根據一個或多個鍵將不同DataFrame中的行連接起來語法如下[python] view pl

原创 手擼決策樹算法,python編程實現

1.信息增益   1.1 信息熵         在信息論中,信息熵度量樣本集合純度是最常用的一種指標,信息熵用來描述信源的不確定度。例如: A=太陽從東方升起 B=太陽從西方升起       對於句子A,確定度很高,基本爲

原创 基於物品,基於協同過濾,基於slope one 算法的圖書推薦系統

                                      智能圖書推薦系統                           所需運行環境     使用python3.6作爲編程語言。使用mysql作爲數據庫存儲.

原创 【Flask-Ajax-Echarts】 python實現新浪微博數據分析並實時展示在Flask服務器上

 需要工具: python3.6      pandas Flask  china.json echarts.js element.js jQuery.js,map.js,vue.js 需要數據集: 新浪微博用戶數據集.csv 數據集一覽

原创 【數據庫】oracle 多表拼接,Left join將SELECT出的所有結果拼接成一張表。

  項目中遇到這樣的問題,需要按指定的時間區間從10個數據庫表中查詢到關於10個司法局的業務數量,案件數量等11列信息。再對這些結果排序。   那麼我們怎麼通過一個SQL語句來解決呢?  下面介紹下SQL方法:select a.

原创 使用nginx+Gunicorn+Flask將Flask應用部署到服務器上

前言:  在本地開發了一個flask項目,如何將其部署到互聯網上? 目前有2種比較常見的方法: Ningx+uwsgi Ningx+Gunicorn 對於第一種,因爲服務器上對應uwsgi版本的不同,或者環境的差異,作者花了很長時間都沒調

原创 【python】多進程+多線程 製作智聯招聘爬蟲 寫入CSV+mongodb

前期準備: 這次爬蟲用的都是python自帶的包,所以只用準備一個pymongo用於mongodb數據庫連接就可以了 pip install pymongo 第一步:目標站點分析 url = ‘http://sou.zhaopin.co

原创 【炮灰模型】 讓數學建模來控制你的愛情,測測你是否是那個炮灰

引言:上週我的一個朋友第 N   次向女生表白遭到拒絕,作爲好朋友的我除了同情之外覺得應該做點什麼。之前一次聊天受到   菠菜   的啓發,加上出於對數學的興趣,我對女生 " 選擇與拒絕 " 的策略試着做了一個簡單的建模,並得出比較有意義

原创 【NLP】詞頻統計的3中方法,時間複雜度,空間複雜度對比。

#第一種辦法 import re from collections import Counter def get_max_value_vl(text): text = text.lower() result = re.findal

原创 邏輯迴歸,決策樹,隨機森林,KNN,高斯貝葉斯模型在智聯招聘招聘信息的機器學習表現

1.算法講解:決策樹(Decision Tree)             決策樹很通俗直觀哈。我們在一次次按條件將訓練數據分割的過程,就是一個訓練的過程。就像我們不停地問問題,不停地用排除法,最後得出結果。            如圖所

原创 手擼邏輯迴歸(logistics regression,LR),python編程實現

Logistic Regression推倒 import numpy as np def sigmod(z): return 1/(1+np.exp(-z) def gradAscent(dat

原创 將數據導入Hive數據庫中,使用python鏈接Hive讀取數據庫,轉化成pandas的dataframe

      做互聯網應用開發過程中,時常需要面對海量的數據存儲及計算,傳統的服務器已經很難再滿足一些運算需求,基於hadoop/spark的大數據處理平臺得到廣泛的應用。本文提供一個導入數據到hive,用python讀取hive數據庫的例

原创 關於智聯招聘招聘信息的機器學習模型

之前發佈了一個對求職信息的網頁爬蟲,這之後做了一些機器學習的探索,這段時間項目基本介紹了,整理一下發布出來,供大家交流。3基於邏輯迴歸的崗位分類器設計 3.1 ;邏輯迴歸算法簡介假設數據集有n個獨立的特徵,x1到xn爲樣本的n個特徵。常規

原创 【API爬蟲】30分鐘百萬條新浪新聞信息爬取。python得極速之旅

請參考源碼,文字是最先得想法,沒有再做更改。源碼以更新前期準備:requests庫:使用pip install requests 安裝。 pymongo庫:使用pip install pymongo安裝。首先分析目標url:http://