原创 搭建一個簡易的醫療導診系統

這裏我們來介紹一個簡易的醫療導診系統,基於我們產品有五大測量的功能:心電,血氧,血壓,血糖和體脂。這個醫療導診系統主要是通過用戶描述的一些症狀來判斷用戶可能的指標異常,然後引導用戶進行相關指標的測量,如果測量得到相關指標有異常的話

原创 中文詞性標註詳解

所謂的詞性標註在NLP領域是一個應用非常廣泛的技術,總的來說,詞性標註所解決的問題就是說,給定一句話 sss,我們將sss進行分詞操作,可以將 sss 分成 nnn 個詞,那麼 sss 可以表示成:s=w1w2...wns = {

原创 如何訓練一個詞向量

現在在NLP領域,詞向量是一切自然語言處理的基礎,有了詞向量我們就可以進行數據分析,文本聚類分類的一系列操作了。接下來我們就開始學習如何訓練詞向量,之前我們有介紹關於 word2vec 的博文 word2vec算法理解和數學推導,

原创 中文情感分析

情感分析在NLP領域中是應用很廣泛的技術,一般用深度學習來解決這一類的問題。其實我的理解就是情感分析就是一個分類問題。這裏我爬取了京東小米9的用戶評論,正面和負面的評價各1000條,爬蟲和整體的代碼我放在了 GitHub 。然後我

原创 中文命名實體識別NER詳解

中文命名實體識別是在自然語言處理領域有着具足輕重的地位,因爲在很多應用中,我們一定要提取出我們話術中的實體,所以說命名實體識別是非常重要的。一般來說,現在網上有很多NER的開源庫,我們通過調用API就可以進行人名、地名、時間、機構

原创 淺談抽取式文本摘要

文本摘要在NLP領域也是非常熱門的一個領域,主要分成抽取式和生成式的,生成式的主要涉及到深度學習,個人覺得其實抽取式的文本摘要在效果上,只要算法得當,並不比生成式的差。這裏我們一起來探討一下抽取式的文本摘要,這裏我們用朱自清的《背

原创 SVM做文本分類代碼實現詳解

之前的一篇博文 SVM做文本分類詳細操作流程 由於是很早之前寫的,大部分都是調用腳本,代碼也不是很全,這裏我再對之前的博文進行一個詳細的補充。代碼詳見 GitHub 。 首先需要導入必要的包: import jieba impor

原创 Negative Sampling 負採樣詳解

在word2vec中,爲了簡化訓練的過程,經常會用到Negative Sampling負採樣這個技巧,這個負採樣到底是怎麼樣的呢?之前在我的博文 word2vec算法理解和數學推導 中對於word2vec有了很詳細的數學推導,這裏

原创 超詳細分析如何用python處理ECG&PPG數據

這篇博文主要和大家分享一下如何使用python處理ECG和PPG的數據,從而使用PPG和ECG的數據進行血壓的推測。 首先普及一下ECG和PPG,首先ECG 心電圖(electrocardiogram)心臟在每個心動週期中,由起搏

原创 LeetCode 72. 編輯距離

編輯距離在自然語言處理中的應用是非常廣泛的,比如在文本糾錯中,編輯距離是必不可少的算法,下面這個題目就是計算兩個單詞的編輯距離計算: 這道題目基本上用普通的辦法很難去解決,只能考慮用動態規劃來進行遞推解答。首先我們可以確定只定義

原创 LeetCode 3. 無重複字符的最長子串

這道題目是很經典的一道字符串題目,是要我們找出字符串中不含重複字符的子字符串長度,題目如下所示: 剛拿到這道題目的時候,似乎唯一的辦法就是窮舉法,雙重遍歷整個字符串,找到不含重複的字符的字符串並記錄長度,然後取最長的一個,所以我

原创 LeetCode 53. 最大子序和

這是一道痕常見的題目,這裏我們一起來學習如何使用動態規劃的思想來查找一個序列中最大子序列和,題目如下: 一般來說,我們首先會想到暴力求解的方法,雙重循環遍歷所有的子序列,然後求和取最大值,這樣的方法顯然比較低效。我們可以通過動態

原创 LeetCode 650. 只有兩個鍵的鍵盤

這是一道很有趣的題目,我們要在只能進行全部複製和粘貼操作的情況下做最少的操作次數,題目如下所示: 這道題目從表面上看,這道題目似乎沒有思路,我們應該在什麼時候複製什麼時候進行粘貼,這些細節都是很難處理的。所以我們可以不考慮這些細

原创 LeetCode 46. 全排列

這道題目是數學中的一個排列組合的問題,我們要用代碼來羅列出所有可能的組合,題目如下: 在數學中,這是一道非常簡單的排列組合,很容易就解決了。但是我們代碼中需要用到回溯的思想,什麼是回溯的思想呢,我們可以把這個數字序列可能的組合進

原创 LeetCode 135. 分發糖果

這道題目是一道很有意思的題目,是老師給下朋友分糖的策略,題目如下: 這道題目的難點就在於,相鄰的孩子中,評分高的孩子必須獲得更多的糖果。我們必須把所有的小朋友左右都進行遍歷一遍,然後根據評分來分配糖果,我們可以用如下策略: 首先