原创 使用pdfbox提取pdf文件中的字符信息

前段時間使用了一下pdfbox(1.6.0)的文本提取功能,發現很好用。但是能給出的比較準確的結果只有行的粒度,後來又有了定位文章題目、章節標題、自然段落的需求,pdfbox目前好像沒有這方面的支持(尤其是對於中文的期刊論文而言,排版情況

原创 SRILM學習筆記說明

最近學習了一下SRILM的源代碼,分享一下學習筆記(最新完整版本),希望能夠對大家瞭解SRI語言模型訓練工具有些許幫助。限於本人水平,不足之處,望大家多多指教。 筆記的主要內容使用starUML及其逆向工程工具繪製,主要針對SRILM的訓