原创 Java讀寫xml-dom4j篇

dom4j介紹 官網:http://www.dom4j.org/ dom4j包下載地址:https://sourceforge.net/projects/dom4j/?source=directory (這裏給的是1.6.1版本

原创 經典算法題09-字符串模式匹配KMP

一. 提問 字符串模式匹配指的是,找出特定的字符串在一個較長的字符串中出現的位置。 有一個長字符串”ababcabababdc”,請問子串”babdc”出現的位置是哪裏? 二. 思路 在字符串模式匹配的學習中,可能首先就會想起

原创 經典算法題08-協同過濾算法

相信大家對如下的類別都很熟悉,很多網站都有類似如下的功能,“商品推薦”,”猜你喜歡“。 在實體店中我們有導購來爲我們服務,在網絡上我們需要同樣的一種替代物,如果簡簡單單的在數據庫裏面去撈,去比較,幾乎是完成不了的,這時我們就需要一

原创 Java反射及其應用

定義 大家都知道,要讓Java程序能夠運行,那麼就得讓Java類要被Java虛擬機加載。Java類如果不被Java虛擬機加載,是不能正常運行的。現在我們運行的所有的程序都是在編譯期的時候就已經知道了你所需要的那個類的已經被加載了。

原创 Ansj中文分詞說明

Ansj分詞 這是一個基於n-Gram+條件隨機場模型的中文分詞的java實現. 分詞速度達到每秒鐘大約200萬字左右(mac air下測試),準確率能達到96%以上 目前實現了.中文分詞. 中文姓名識別 . 用戶自定義詞典

原创 理解Java 8 Streams API,Collector,Parallelism

前言 本文是主要介紹Java 8針對新增語言特性而新增的類庫(例如Streams API、Collectors和並行)。 本文是對Brian Goetz的State of the Lambda: Libraries Edition

原创 經典算法題10-AhoChorasick

引入 現在我們有需求了,我要檢查一篇文章中是否有某些敏感詞,這其實就是多模式匹配的問題。當然你可以用KMP(Knuth-Morris-Pratt algorithm)算法求出,那麼它的時間複雜度爲O(c*(m+n)),c:爲模式串

原创 理解Java 8 Lambda

前言 爲什麼要寫(翻譯)本文? 工作之後,我開始大量使用Java 公司將會在不久的未來使用Java 8 作爲資質平庸的開發者,我需要打一點提前量,以免到時拙計 爲了學習Java 8(主要是其中的lambda及相關庫),我先後閱讀

原创 中文分詞的條件隨機場模型(CRF)介紹

CRF簡介 Conditional Random Field:條件隨機場,一種機器學習技術(模型) CRF由John Lafferty最早用於NLP技術領域,其在NLP技術領域中主要用於文本標註,並有多種應用場景,例如: 分詞(標註

原创 二叉查找樹

二叉查找樹(binary search tree,又叫二叉搜索樹或者二叉排序樹)是一種非常重要的數據結構,許多高級樹結構都是二叉查找樹的變種,例如AVL樹、紅黑樹等,理解二叉查找樹對於後續樹結構的學習有很好的作用。同時利用二叉查找

原创 Jieba中文分詞說明

結巴分詞介紹 現在開源的中文分詞工具,有IK、MMseg4j、THULAC、Ansj、Jieba、HanLP等,其中最近還在更新並維護的,也是目前分詞效果比較優秀的要屬於Ansj、Jieba、HanLP了。 之前我寫過Ansj分

原创 Java中的弱引用

本篇文章嘗試從What、Why、How這三個角度來探索Java中的弱引用,幫助大家理解Java中弱引用的定義、基本使用場景和使用方法。由於個人水平有限,敘述中難免存在不準確或是不清晰的地方,希望大家可以指出,謝謝大家:) 1. W

原创 任務型對話系統研究進展

任務型對話系統 介紹 我們將對話系統分成四個主要的功能:第一個是任務型對話系統,也可以認爲其他都是非任務型對話系統,又可以進一步劃分爲聊天類、知識問答類,以及推薦類,這幾個類型的機器人我們研究中心都在做。我今天主要介紹任務型的對話系統

原创 競賽分享-自動文摘(bytecup 2018)

自動文摘(Auto Text Summarization) 自動文摘,也稱自動摘要生成,是NLP中較難的技術,難點很多,至今並沒有一個非常讓人滿意的、成熟的技術來解決這個問題。 介紹 應用 自動文摘技術應用最廣的領域在於新聞,由於新

原创 用於語法糾錯的深度上下文模型

用於語法糾錯的深度上下文模型 徐明 編譯 論文地址:https://www.isca-speech.org/archive/SLaTE_2017/pdfs/SLaTE_2017_paper_5.pdf 相關開源項目:https://