原创 概率圖模型 HMM CRF 學習筆記
1.機器學習最重要的任務,是根據一些可觀測的樣本數據,對感興趣的未知變量(例如類別標記)進行評估和推測。概率模型(probabilistic model)提供了一種描述框架,將學習任務歸結於計算變量的概率分佈。在概率模型中,利用已
原创 pandas之read_csv參數詳解
最近發現pandas強大的驚人,只是不懂。多走了很多歪路,浪費開發效率。準備好好總結一下pandas. pandas.read_csv參數 Basic filepath_or_buffer : various sep : str
原创 鏈表中環的入口結點 題解
#-*- coding:utf-8 -*- ''' @project: exuding-nlp-all @author: tao @time: 2019-06-18 14:58:59 ''' #給一個鏈表,若其中包含環,請找出該
原创 解決CentOS升級python後yum不可用問題
造成原因: CentOS 6.9 默認安裝了python2.6.6 因爲一些命令要用它比如yum 它使用的是python2.6.6。因爲一些程序和框架要求,需要使用python3,於是升級安裝了python3。然後建立軟連接,使p
原创 基於規則的雙向最大匹配算法的分詞
雙向最大匹配算法(Bi-directction Matching method)是將最大匹配法得到的分詞結果和逆向最大匹配法得到的結果通過雙向最大匹配算法的規則進行篩選而得到。 #-*- coding:utf-8 -*- '''
原创 Svm實現多分類
Svm實現多分類Svm實現多類分類原理代碼實現訓練的圖片 Svm實現多類分類原理 1.支持向量機分類算法最初只用於解決二分類問題,缺乏處理多分類問題的能力。後來隨着需求的變化,需要svm處理多分類分爲。目前構造多分類支持向 量機分類器
原创 python 常見正則表達式
1.替換:語法:str.replace(old, new,[ max]) s.replace('中國','世界')輸出:'世界是有好大學的,比如北京師範大學[2]' re.sub(r'[+[0-9]+]','',s)輸出:'
原创 pandas 常用命令
更改列名:(按照列表新舊字典格式更改) df.rename(columns={'name':'school'},inplace=True) 多表合併(列不一樣時,按照列名爲key,合併方式可以通過參數修改,對應sql的形式)df_n
原创 機器學習面試(實習)總結
機器學習實習面試總結 算法題: 大公司一般上來會有三道算法題,不管是用試卷(百度)還是直接問(頭條)都是手寫代碼,這三道題一般難度也是逐漸增加的,第一道題一般是普通的通過兩個for循環可以解決的,遇到比較多的是對串的操作,或者一些其他
原创 計算兩個URL的相似度 編輯距離和docsim
在教育領域,追蹤學習者的學習行爲活動是分析學習者學習的一種有效的處理方式,這裏處理一批url,通過處理URL形成相似度矩陣,再進一步進行聚類,及以後的相關處理。 計算兩個文本間(這裏的文本指兩個url)的相似度有多種方法,在NLP領域
原创 面試常見算法題
兩個大數相加 public class Main { public static void main(String[] args) { String str1="125567673456"; S
原创 Mysql詳解(一)Mysql中的索引
Mysql中的索引 索引簡介 索引用於快速找出在某個列中有一特定值的行,不使用索引,MySQL必須從第一條記錄開始讀完整個表,直到找出相關的行,表越大,查詢數據所花費的時間就越多,如果表中查詢的列有一個索引,MySQL能夠快速到達一個
原创 面試問答題總結
TCP/IP協議和http協議的區別: TPC/IP協議是傳輸層協議,主要解決數據如何在網絡中傳輸,而HTTP是應用層協議,主要解決如何包裝數據。關於TCP/IP和HTTP協議的關係,網絡有一段比較容易理解的介紹:“我們在傳輸數據時,
原创 pandas 處理數據一(抽取特定URL,正則匹配)
主要是想查找第一個url文件中的url在第二個文件中url中有多少個和它匹配。 第一個文件截圖(共23個特徵數據): 第二個文件截圖,共6萬多URL數據: 結果截圖: import pandas as pd import num
原创 T-sne 詳解和代碼
1.T-SNE的背景及介紹: 任何事物產生的背景大多來自於現實的需求和現狀的不滿足: 一:高維數據的可視化是許多不同領域的重要問題,例如與乳腺癌相關的細胞核由約30個變量描述。 二:過去幾十年中用於可視化高維數據的技術中很多非降維技術