原创 字符串匹配算法 之 BM(Boyer-Moore)

背景 各種文本編輯器的”查找”功能(Ctrl+F),大多采用Boyer-Moore算法。 大家所熟知的GNU grep命令使用的就是該算法,這也是GNU grep比BSD grep快的一個重要原因。 1977年,德克薩

原创 字符串匹配算法 之 Aho-Corasick

簡介 首先簡要介紹一下AC自動機:Aho-Corasick automation,該算法在1975年產生于貝爾實驗室,是著名的多模匹配算法之一。一個常見的例子就是給出n個單詞,再給出一段包含m個字符的文章,讓你找出有多少個單詞在文

原创 排序算法總結

先放在這裏,後面慢慢整理 點贊 收藏 分享 文章舉報 搬磚小工053 發佈了126 篇原創文章 · 獲贊 94 · 訪問量 46萬+ 私信

原创 字符串匹配算法 之 Sunday

基本思想 Sunday算法由Daniel M.Sunday在1990年提出,它的思想跟BM算法很相似。 只不過Sunday算法是從前往後匹配,在匹配失敗時關注的是主串中參加匹配的最末位字符的下一位字符。 - 如果該字符沒有在模式串

原创 Numpy加速的關鍵 -- 使用優化的方法

# -*- coding: utf-8 -*- """ Created on Sun Oct 23 20:05:57 2016 @author: zang """ import timeit normal_py_sec = tim

原创 特徵工程中常用的技術

原文:https://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651643693&idx=1&sn=e386759cc1cd3d1f690f57f1a0250689 複雜的模型不易解釋

原创 常用的自然語言處理分詞工具

中科院ICTCLAS分詞 東北大學NIUPARSER 清華大學THULAC 復旦大學FUNLP HanLP MMSEG JCSEG Ansj LTP LingPipe WORD MMSEG4J IK-ANALYZER SMAR

原创 IntelliJ IDEA中快捷鍵一覽

轉自:http://blog.csdn.net/w_basketboy24/article/details/8249571 Alt+回車 導入包,自動修正 Ctrl+N 查找類 Ctrl+Shift+N 查找文件 Ctrl+Al

原创 遷移學習簡介

遷移學習,簡單的說,就是能讓現有的模型算法稍加調整即可應用於一個新的領域和功能的一項技術。這個概念目前在機器學習中其實比較少見,但其實它的潛力可以相當巨大。楊強教授在剛剛結束的CCF-GAIR上的演講中曾提到一個願景——利用遷移學習,即使

原创 sklearn 數據加載工具(1)

簡介 sklearn.datasets 包提供了一些小的toy數據集。爲了評估數據特徵(n_samples,n_features)的影響,可以控制數據的一些統計學特性,產生人工數據。 這個包提供一些接口,來獲取真實的機器學習社區常用於基準

原创 minepy 包——基於最大信息的非參數估計

簡介 minepy 提供 ANSI C 庫的基於最大信息的非參數估計的實現(Maximal Information-based Nonparametric Exploration,MIC and MINE family). 特點 AP

原创 Anaconda version `GFORTRAN_1.4' not found

錯誤信息: [root@biostacs /]# ipython Python 2.7.11 |Anaconda 4.0.0 (64-bit)| (default, Dec 6 2015, 18:08:32) Type "copyrig

原创 Linux 解壓命令大全

轉自 http://www.cnblogs.com/eoiioe/archive/2008/09/20/1294681.html .tar 解包:tar xvf FileName.tar 打包:tar cvf FileName.tar D

原创 pip 安裝matplotlib報錯 png can not be built

matplotlib安裝的時候報如下錯誤 [root@biostacs /]# pip install matplotlib --upgrade Collecting matplotlib Downloading matplotlib

原创 【3】 文本挖掘方法論

轉自 NLP論壇 http://www.threedweb.cn/thread-1284-1-1.html http://www.threedweb.cn/thread-1285-1-1.html http://www.threed