原创 【NLP】【二】jieba源碼分析之分詞 原

【一】詞典加載 利用jieba進行分詞時,jieba會自動加載詞典,這裏jieba使用python中的字典數據結構進行字典數據的存儲,其中key爲word,value爲frequency即詞頻。 1. jieba中的詞典如下: jieba/

原创 【NLP】【九】keras用法總結 原

【一】keras模型搭建整體流程 keras支持兩種方式搭建模型,一種是使用Sequential方式進行模型搭建,一種是使用函數式API進行模型搭建,整體流程如下圖: 【二】keras主要模塊介紹 1. 數據預處理 2. NLP相關的主

原创 【c++】反射機制 原

反射:其實就是通過類的名字(類名是string)來獲取類的實例。比如講類名寫在txt文件中,然後解析文本文件,拿到類名,進而那到類的實例。 在caffe中,在網絡配置文件中,寫入了各個層的名字,如:relu。其實,這些算子,在caffe源碼

原创 【c++】【多線程】類對象創建時線程自啓動 原

在某些場景下,需要週期性的執行耗時操作,比如寫文件。這種場景,有兩個需求點: 1.執行一次任務比較耗時,不能影響主業務性能。 2.該任務週期性執行。 這種場景:可以每次在執行任務時啓動一個線程,但是這樣做,當任務執行比較頻繁時,需要多次創建

原创 【NLP】【四】jieba源碼分析之詞性標註 原

【一】詞性標註 詞性標註分爲2部分,首先是分詞,然後基於分詞結果做詞性標註。 【二】jieba的詞性標註代碼流程詳解 1. 代碼位置 jieba/posseg/_init_.py 2. 流程分析 def cut(sentence, HMM=

原创 【c++】【多線程】單例模式及其性能 原

併發場景下的單例模式,需要加鎖。 #pragma once #include <mutex> using namespace std; class SingleInstance { public: static Single

原创 【NLP】【八】基於keras與imdb影評數據集做情感分類 原

【一】本文內容綜述 1. keras使用流程分析(模型搭建、模型保存、模型加載、模型使用、訓練過程可視化、模型可視化等) 2. 利用keras做文本數據預處理 【二】環境準備 1. 數據集下載:http://ai.stanford.edu/

原创 【TensorFlow源碼系列】【四】圖優化算法:constant folding和CSE 原

TensorFlow中使用的圖優化算法有:constant folding 和CSE(common-subexpression elimination) 【算法一】constant folding 該算法,是將graph中常量的計算合併起來

原创 【TensorFlow源碼系列】【零】使用TensorFlow C++ 接口進行模型推理 原

#include <string> #include <vector> #include <iostream> #include "tensorflow/core/public/session.h" #include "tensor

原创 【keras】keras使用方法集合(持續更新中) 原

本文內容如下: 1. keras中,shape如何定義? 2. 關於model.compile 的參數傳遞,傳遞字符串呢?還是傳遞對象? 3. 如何獲取模型中的每個layer信息?如input_shape,output_shape,laye

原创 【NLP】【十】基於tensorflow實現CBOW 原

本文主要參考:https://github.com/zhedongzheng/finch 完成。與原代碼的區別在於沒有使用 tf.estimator,以及數據預處理方面做了部分修改(使用於dataset) # -*- coding:utf-

原创 【NLP】【十一】基於RNN和tf.keras 實現文本生成 原

【一】聲明 本文源自TensorFlow官方指導(https://tensorflow.google.cn/tutorials/sequences/text_generation),增加了部分細節說明。 【二】綜述 1. tf.keras與

原创 【TensorFlow源碼系列】【三】node分配算法之placement algorithm 原

一個graph中各種不同特徵的node,tf需要依據一定的規則將不同的node放在不同的device上,這點對於分佈式或者單機多卡比較重要。tf在node的分配算法上有placer和costmodel(代價模型);這裏簡單分析一下place

原创 【TensorFlow源碼系列】【一】Session的創建 原

【一】代碼下載 https://github.com/tensorflow/tensorflow/releases/ PS:本次源碼分析採用1.11版本 【二】Session簡介 在TensorFlow中,session是溝通tf的橋樑,模

原创 【NLP】【三】jieba源碼分析之關鍵字提取(TF-IDF/TextRank) 原

【一】綜述 利用jieba進行關鍵字提取時,有兩種接口。一個基於TF-IDF算法,一個基於TextRank算法。TF-IDF算法,完全基於詞頻統計來計算詞的權重,然後排序,在返回TopK個詞作爲關鍵字。TextRank相對於TF-IDF,基