原创 pandas學習

Pandas學習: pandas 兩大主要數據結構:Series,Dataframes Series:一種類似於一維數組的對象,它由一組數據(各種Numpy數據類型)以及一 組與之相關的數據標籤(即索引1)組成。僅由一組數據即可產生最

原创 推薦算法實戰-基於用戶的推薦(use_base)

代碼實現是基於:推薦系統實戰-----項亮; import pandas as pd items_data = pd.read_csv("items_action_2.csv") items_data.head() U

原创 gensim中word2vec使用

      ~~~~~~      看了很多文章,對word2vec的原理講解很清楚,還有一些源碼解讀和實現。但是在真正工作中如何熟練使用更是必須的。翻了下網頁發現這個內容比較少。就記錄一下關鍵它的使用。       ~~~~~~  

原创 NLP文本分類

1.基於規則,對於要提取的分類維護一個dict,在dict裏面保存需要提取的關鍵詞,存在關鍵詞的對應標記爲分類;(缺點,不斷的去維護詞典) 2.基於機器學習:HMM(分詞最常用的),CRF,SVM,LDA,CNN 3.詞袋模型:bag

原创 Tornado使用(一)

使用tornado就是因爲他是Python的輕量級框架,業務需求就是封裝一些簡單接口供業務使用,主要是進行數據的封裝處理。 tornado的書:Introduction to Tornado tornado的視頻:千鋒python視頻

原创 deep learning中一些層的介紹和代碼實現

文章來自:https://leonardoaraujosantos.gitbooks.io 原文作者:Leonardo Araujo dos Santos 公衆號:機器學習算法工程師 https://blog.csdn.net/by

原创 MongoDB數據庫

MongoDB數據庫 NOSQL,指非關係型數據庫。Not Only SQL的縮寫,是不同於傳統的關係型數據庫管理系統的統稱。 NOSQL用於超大規模數據的存儲。 主要解決: 對數據庫高併發需求 對海量數據的高效率存儲和訪問的需求 對數

原创 混淆矩陣,AUC,ROC曲線,F值驗證,馬修斯相關係數

混淆矩陣,AUC,ROC曲線 smote算法

原创 上採樣和下采樣

不平衡數據集的處理一般有: 上採樣是小的變多 下采樣是大的變小 在圖像處理中也有 改進的使用:smote算法

原创 支持向量迴歸-SVR(Support Vector Regression)

SVR迴歸,就是找到一個迴歸平面,讓一個集合的所有數據到該平面的距離最近。 關於核的映射,在SVM/SVR裏可謂巧奪天工,如果沒有核這種思想的引入,那麼SVM/SVR就是一種加了距離限制的percetion learning algori

原创 機器學習入門之十大算法

決策樹 —–ok 隨機森林 邏輯迴歸 SVM —–ok 貝葉斯算法 —ok K最近鄰 —ok K均值—ok Adaboost 神經網絡 馬爾可夫

原创 爬蟲學習

爬蟲學習 3. 爬蟲深度優先和廣度優先 爬取網頁會存在環路的情況:比如導航欄 通過URL去重,跳過已經爬取的URL 深度優先 按照垂直進行(scrapy是用這個方法) 深度優先算法: def depth_tree(tree_

原创 機器學習十大算法之五:樸素貝葉斯法

樸素貝葉斯(naive Bayes)法是基於貝葉斯定理與特徵條件獨立假設的分類方法;樸素貝葉斯並不是貝葉斯定理,也不是貝葉斯估計 一、概率基礎知識: 條件概率是指事件A在另外一個事件B已經發生條件下的發生概率。 條件概率表示爲: P(A|

原创 PageRank算法

PageRank由來                在PageRank發明之前,搜索引擎採用的還是最原始的關鍵字匹配技術,於是呢在搜索結果中經常會遇到「掛羊頭賣狗肉」的垃圾網站,對這些網站,當時的Yahoo採用還是人工清理的方法。這時候G

原创 機器學習常用距離

一、歐氏距離(Euclidean Distance): 歐氏距離是最容易直觀理解的距離度量方法,我們小學、 初中和高中接觸到的兩個點在空間中的距離一般都是指歐氏距離。 二維平面上點a(x1,y1)與b(x2,y2)間的歐氏距離: