原创 詞嵌入、句向量等方法彙總

在cips2016出來之前,筆者也總結多類似詞向量的內容,自然語言處理︱簡述四大類文本分析中的“詞向量”(文本詞特徵提取)事實證明,筆者當時所寫的基本跟CIPS2016一章中總結的類似,當然由於入門較晚沒有CIPS20

原创 keras 深度模型調參

超參數優化是深度學習中的重要組成部分。其原因在於,神經網絡是公認的難以配置,而又有很多參數需要設置。最重要的是,個別模型的訓練非常緩慢。 在這篇文章中,你會了解到如何使用scikit-learn python機器學習庫中的

原创 深度學習DL中權重weight初始化方法

神經網絡,或者深度學習算法的參數初始化是一個很重要的方面,傳統的初始化方法從高斯分佈中隨機初始化參數。甚至直接全初始化爲1或者0。這樣的方法暴力直接,但是往往效果一般。本篇文章的敘述來源於一個國外的討論帖子[1],下面就

原创 基於深度學習分詞

深度學習將會變革NLP中的中文分詞 本文作者:陳圳

原创 python 多線程

多進程實踐——multiprocessing 筆者最近在實踐多進程發現multiprocessing,真心很好用,不僅加速了運算,同時可以GPU調用,而且互相之間無關聯,這樣可以很放心的進行計算。 譬如(參考:多進程): fr

原创 python if .for 等函數

新手入門python,開始寫一些簡單函數,慢慢來,加油~ 一、函數 +三個內建函數filter,map和reduce + if 1、def/lambda def myadd(a=1,b=100): result =

原创 深度學習DL中優化方法總結

前言 (本文僅對一些常見的優化方法進行直觀介紹和簡單的比較,各種優化方法的詳細內容及公式只好去認真啃論文了,在此我就不贅述了。 SGD 此處的SGD指mini-batch gradient descent,關於batch gr

原创 sklearn 使用技巧

sklearn裏面包含內容太多,所以一些實用小技巧還是挺好用的。 1、LabelEncoder 簡單來說 LabelEncoder 是對不連續的數字或者文本進行編號 from sklearn.preprocessing im

原创 python----貝葉斯優化調參之Hyperopt

Hyperopt庫爲python中的模型選擇和參數優化提供了算法和並行方案。機器學習常見的模型有KNN,SVM,PCA,決策樹,GBDT等一系列的算法,但是在實際應用中,我們需要選取合適的模型,並對模型調參,得到一組合適的參數

原创 attention簡單實現

keras還沒有官方實現attention機制,有些attention的個人實現,在mnist數據集上做了下實驗。模型是雙向lstm+attention+dropout,話說雙向lstm本身就很強大了。 參考鏈接:

原创 深度學習中卷積神經網絡(CNN)的參數,你真的都熟悉嗎?

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/gdh756462786/article/details/79127193         隨着AI的越來越火熱

原创 分詞原理

    在做文本挖掘的時候,首先要做的預處理就是分詞。英文單詞天然有空格隔開容易按照空格分詞,但是也有時候需要把多個單詞做爲一個分詞,比如一些名詞如“New York”,需要做爲一個詞看待。而中文由於沒有空格,分詞就是一個需要專門去解決的

原创 Keras 使用一些技巧

最近幾個月爲了寫小論文,題目是關於用深度學習做人臉檢索的,所以需要選擇一款合適的深度學習框架,caffe我學完以後感覺使用不是很方便,之後有人向我推薦了Keras,其簡單的風格吸引了我,之後的四個月我都一直在使用Keras框架,由於我用

原创 基於筆畫中文分詞算法---螞蟻金服

原標題:AAAI 2018 | 螞蟻金服公開最新基於筆畫的中文詞向量算法 轉載自螞蟻金服科技 作者:曹紹升 陸巍 周俊 李小龍 詞向量算法是自然語言處理領域的基礎算法,在序列標註、問答系統和機器翻譯等諸多任務中都發揮了重要作用。

原创 python 中one—hot 三種編碼方式

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/gdh756462786/article/details/79161525 一、什麼是One-Hot編碼?