原创 C++ split字符串

#include <stdio.h> #include <string.h> int main () { char str[] ="- This, a sample string."; char * pch; printf

原创 STL算法目錄

迭代器的各種形式概述:InputIterator:一個只允許單個向序列讀入元素的輸入迭代器,前向傳遞使用operator++和operator*。也可以通過operator==和operator!=檢測輸入迭代器。OutputIterat

原创 C++ 避免使用宏

避免使用宏 概述:         宏是C和C++語言的抽象設施中最生硬的工具,它是披着函數外衣的飢餓的狼,很難馴服,它會我行我素地遊走於各處。要避免使用宏。 討論:         在C++中,幾乎從不需要使用宏。    

原创 Linux命令之wc - 統計文件行數、單詞數或字節數

用途說明 wc命令用來打印文件的文本行數、單詞數、字節數等(print the number of newlines, words, and bytes in files)。在Windows的Word中有個“字數統計”的工具,可以幫我

原创 C格式讀取文件內容

/**--------------------- 以下爲C格式讀取文件 -----------------------**/ /**********

原创 ORA-24369

ORA-24369:required callbacks not registered for one or more bind handles(沒

原创 mongodb的c++接口的說明

mongodb c++ 接口說明 說明: IN表示輸入參數; OUT表示輸出參數; (1)構造函數: DBClientConnection(bool auto_connect, 0, double so_timeout);

原创 特徵選擇算法之開方檢驗

前文提到過,除了分類算法以外,爲分類文本作處理的特徵提取算法也對最終效果有巨大影響,而特徵提取算法又分爲特徵選擇和特徵抽取兩大類,其中特徵選擇算法有互信息,文檔頻率,信息增益,開方檢驗等等十數種,這次先介紹特徵選擇算法中效果比較好的

原创 N-gram模型

N-Gram是大詞彙連續語音識別中常用的一種語言模型,對中文而言,我們稱之爲漢語語言模型(CLM, Chinese Language Model)。漢語語言模型利用上下文中相鄰詞間的搭配信息,在需要把連續無空格的拼音、筆劃,或代表字母或

原创 文本相似度的計算-向量空間模型

在向量空間模型中,文本泛指各種機器可讀的記錄。用D(Document)表示,特徵項(Term,用t表示)是指出現在文檔D中且能夠代表該文檔內容的基本語言單位,主要是由詞或者短語構成,文本可以用特徵項集表示爲D(T1,T2,…,Tn),其

原创 C++ map 根據值排序

     typedef pair<string, int> PAIR;     int cmp(const PAIR& x, const PAIR

原创 特徵選擇方法之信息增益

前文提到過,除了開方檢驗(CHI)以外,信息增益(IG,Information Gain)也是很有效的特徵選擇方法。但凡是特徵選擇,總是在將特徵的重要程度量化之後再進行選擇,而如何量化特徵的重要性,就成了各種方法間最大的不同。開方檢驗中

原创 C格式讀取文件

最近經常會使用C語言讀寫文件,所以在此總結一下。  在C語言中,文件操作都是由庫函數來完成的,可以分爲讀和寫兩種操作。操作流程爲使用fopen()打開文件>>使用下面的庫函數讀或寫文件>>fclose()關閉文件。  下面先列

原创 oracle grant 存儲過程 執行 job 小總結

grant GRANT — 賦予一個用戶,一個組或所有用戶訪問權限 GRANT privilege [, ...] ON object [, ...] TO { PUBLIC | GROUP group | username }

原创 中文文本分類流程

中文文本分類中使用較多的特徵抽取方法包括文檔頻率DF、互信息MI、信息增益IG和CHI等。 文本分類主要分成建立特徵庫、分類模型訓練和分類測試三個步驟。 1、預處理,包括分詞和停用詞的移除。 2、選擇合適的特徵抽取方法,對每個詞條進行