原创 HtmlUnit優秀文章

博客地址:https://www.cnblogs.com/davidwang456/articles/8693050.htmlhttps://blog.csdn.net/anLA_/article/details/50199815

原创 Java大數據前端。。。。各種資源(二)

看到這個標題,你應該懂前邊是什麼--- 需要可以加關注,或留言,持續分享     黑馬社區系列教程: http://bbs.itheima.com/forum.php?mod=viewthread&tid=395590?tjlb 一 1.

原创 shell腳本

運行服務接口,這裏運行的是jetty做的接口 以下MyServer是主函數入口 NG=zh_CN.UTF-8 libs="."; for lib in `ls ../lib/*` do libs=$libs":"$li

原创 java的xpath語法

源地址:https://blog.csdn.net/dyoldfish/article/details/1774539#commentBox 常用Xpath對照表 常用的XPATH 表達式 說明   // 表示返回XML文檔中的所有符合查

原创 jetty7內嵌代碼配置

來源轉載 另一篇參考博客:https://blog.csdn.net/robinpipi/article/details/7557035?utm_source=blogxgwz9   以war包形式啓動:   String warPa

原创 Java - XPath解析爬取內容

這方面文章不多,分享給大家,最近在做爬蟲,需要相關知識關注以下 參考地址:https://www.cnblogs.com/Kavlez/p/4049210.html

原创 servlet研究學習總結--OutputStream和PrintWriter的區別

當用戶和瀏覽器其進行交互時,會給服務器發送http請求,Web服務器收到客戶端的http請求,會針對每一次請求,分別創建一個用於代表請求的request對象、和代表響應的response對象。request和response對象即然代表請

原创 利用WebMagic的Cookie機制進行頁面爬取

目前發佈的WebMagic的最新版本仍然不支持post請求模擬登陸來抓取頁面,但是相信,在後續的版本中,肯定會支持這項功能。那麼要抓取登陸後才能看到的頁面怎麼辦? 一、用戶自己發送post請求,將獲取的cookie設置到Spider中 二

原创 webmagic需要jar包全部

webmagic-0.7.3版本 官網:http://webmagic.io/docs/zh/posts/ch1-overview/thinking.html

原创 linux給文件授權

文件權限分爲 :讀,寫,可執行 每個文件分爲三種用戶:主用戶,同組用戶,其它系統用戶 用10位來表示:drwxr-xr-x 第一位代表文件類型  -  代表普通文件    d 代表目錄 其餘每三位代表一種用戶的權限 授權命令 : eg: 

原创 Java字符串分割

String html = Jsoup.parse(htmls).select("script").get(4).html(); System.out.println(html); Integer start = html.indexO

原创 “三個月就是一年”——程序員的時間觀念

這句話被程序員間傳了很多年了,今天看到,記錄下來,且行

原创 爬蟲爬取一個div下多個標籤

 選取一個div下多個標籤,遍歷 Elements select = doc.select(".article p,.article img[src]");  

原创 Map.Entry 類使用簡介

你是否已經對每次從Map中取得關鍵字然後再取得相應的值感覺厭倦?使用Map.Entry類,你可以得到在同一時間得到所有的信息。標準的Map訪問方法如下: Set keys = map.keySet( ); if(keys != null

原创 運行Hadoop自帶的wordcount單詞統計程序

 2018.11.19測試,可行     0.前言     前面一篇《Hadoop初體驗:快速搭建Hadoop僞分佈式環境》搭建了一個Hadoop的環境,現在就使用Hadoop自帶的wordcount程序來做單詞統計的案例。 http:/