原创 機器學習實戰(第二篇)-k-近鄰算法

     本篇文章開始,我們將真實進入機器學習的世界,首先我們本篇介紹的是分類算法中的k-近鄰算法。它非常有效而且易於掌握。首先我們將探討k-近鄰算法的基本理論,以及如何使用距離測量的方法分類物品;其次我們將使用Python從文本文件中導

原创 python自然語言處理-使用NLTK做統計分析

  NLTK很擅長生成一些統計信息,包括對一段文字的單詞數量,單詞頻率和單詞詞性的統計。如果你只需要做一些簡單直接的計算(如,計算一段文字中不重複單詞的數量),導入NLTK模塊就太大材小用了--它是一個非常大的模塊。但是,如果你還需要對文

原创 Linux CentOS環境下安裝圖像識別工具Tesseract教程

     最近在進行Python數據爬蟲方向的研究,使用到了與圖像識別相關的一些功能,這樣就會使用到圖像識別的重要工具Tesseract。下面就在CentOS環境下安裝和配置Tesseract的工作環境進行講解。查閱了網上很多資料,現將自

原创 python程序安裝nltk-安裝完成後import報ImportError: No module named '_sqlite3'解決方案

    今天在使用Python的自然語言工具包NLTK時,使用pip3安裝了nltk後,進入python命令行,執行import nltk,報錯ImportError: No module named '_sqlite3'。查了網上很多資

原创 python網絡數據採集-處理重定向問題

第一部分:客戶端重定向VS服務器端重定向             客戶端重定向是在服務器將頁面內容發送到瀏覽器頁面之前,由瀏覽器執行JavaScript完成的頁面跳轉,而不是服務器完成的跳轉。當使用瀏覽器訪問頁面的時候,有時候很難區分這兩

原创 Java面試題全集(3)

這部分主要是開源Java EE框架方面的內容,包括Hibernate、MyBatis、Spring、Spring MVC等,由於Struts 2已經是明日黃花,在這裏就不討論Struts 2的面試題,如果需要了解相關內容,可以參考我的另一

原创 面試題收集-java面試題及答案(基礎題122道,代碼題19道)

JAVA相關基礎知識 1、面向對象的特徵有哪些方面  1.抽象: 抽象就是忽略一個主題中與當前目標無關的那些方面,以便更充分地注意與當前目標有關的方面。抽象並不打算了解全部問題,而只是選擇其中的一部分,暫時不用部分細節。抽象包括兩個方面,

原创 Netty實戰-第一個Netty

      本部分將簡單介紹Netty的核心概念,核心概念就是學習Netty是如何攔截和處理異常。1 設置開發環境   設置開發環境的步驟包括如下三個部分:安裝jdk下載netty包安裝Ecplise2 Netty客戶端和服務器概述   

原创 Java面試題全集(2)

這部分主要是與Java Web和Web Service相關的面試題。96、闡述Servlet和CGI的區別? 答:Servlet與CGI的區別在於Servlet處於服務器進程中,它通過多線程方式運行其service()方法,一個實例可以服

原创 系統架構解析-讀寫分離,水平切分及緩存架構對比

  最近在研究一些系統架構方案,學習到讀寫分離的時候,對於讀寫分離應用場景有了一些自己的理解: 一. 讀寫分離 1. 什麼是數據庫讀寫分離   首先我們看一個讀寫分離架構圖:   讀寫分離就是:一主多從,讀寫分離,主動同步,是一種常見的

原创 Java面試題全集(1)

1、面向對象的特徵有哪些方面? 答:面向對象的特徵主要有以下幾個方面: - 抽象:抽象是將一類對象的共同特徵總結出來構造類的過程,包括數據抽象和行爲抽象兩方面。抽象只關注對象有哪些屬性和行爲,並不關注這些行爲的細節是什麼。 - 繼承:繼承

原创 機器學習實戰(第二篇)-k-近鄰算法改進約會網站配對結果

    前面幾篇中,我們學習了機器學習算法中k-近鄰算法,本章我們將使用該算法進行改進約會網站配對結果的工作。首先我們先進入背景介紹:      我的朋友海倫一直使用在線約會網站尋找適合自己的約會對象。儘管約會網站會推薦不同的人選,但她沒

原创 面試題收集-abstract的method是否可同時是static,是否可同時是native,是否可同時是synchronized?

1、abstract是抽象的,指的是方法只有聲明而沒有實現,他的實現要放入聲明該類的子類中實現。 2、static是靜態的,是一種屬於類而不屬於對象的方法或者屬性 3、synchronized 是同步,是一種相對線程的鎖。 4

原创 Nginx服務器-服務器架構初探

1.Nginx的模塊化結構簡介     Nginx涉及到的模塊分爲核心模塊,標準HTTP模塊,可選HTTP模塊,郵件服務模塊以及第三方模塊等五大類。核心模塊是指Nginx服務器正常運行必不可少的模塊,它們提供了Nginx最基本最核心的服務

原创 UML學習筆記

       最近在準備一些考試,涉及到UML的常規知識,感覺自己以前知道的也是一知半解,所以正好藉助這個機會進行一次全面的學習認知。1.UML基礎概念    UML這三個字母的全稱是Unified Modeling Language,即