Java 讀取原始html文件內容

原創

2020-06-28 14:38

原始html文件內容（不是網頁瀏覽器控制檯上數據已加載的html）：

    public static String getHTML(String pageURL) {
        StringBuilder pageHTML = new StringBuilder();
        try {
            URL url = new URL(pageURL);
            HttpURLConnection connection = (HttpURLConnection) url.openConnection();
            connection.setRequestProperty("User-Agent", "MSIE 7.0");
            BufferedReader br = new BufferedReader(new InputStreamReader(connection.getInputStream(), PAGE_ENCODE_TYPE));
            String line;
            while ((line = br.readLine()) != null) {
                pageHTML.append(line);
                pageHTML.append("\r\n");
            }

            connection.disconnect();
        } catch (Exception e) {
            e.printStackTrace();
        }

        return pageHTML.toString();
    }

如果想讓Jsoup能正確識別，需格式轉換：

    public static String getHtmlContent(String htmlContent){
        return htmlContent.replace("\\\"", "\"").replace("\\/", "/");
    }

    Jsoup.parseBodyFragment(htmlContent)

注意：Jsoup讀取url後拿到的是原始html：

    Document document = Jsoup.connect(url)
                    .timeout(10000)
                    .ignoreContentType(true)
                    .userAgent("Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36")
                    .get();

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Html中的,,標籤的使用

1. <em>和<strong>標籤是爲了強調一段話中的關鍵字時使用，它們的語義是強調。語法： <em>需要強調的文本</em> <strong>需要強調的文本</strong> 2. <span

赵信说一点寒芒先到

2020-07-08 09:38:31

前端攻城師所要掌握的知識和技能

一名前端攻城師所要掌握的知識和技能，直接附上圖片看完之後發現我要學習的東西還有很多很多。 PS：博客搬家了，以後不再 CSDN 更新了，見諒。最新博客地址：http://www.cnblogs.com/yjzhu/

2020-07-07 22:29:39

HTML字符集，特殊字符使用

以前用到html字符的時候老是忘了該怎麼寫，我想和我一樣的人應該很多，現整理一下html字符，共享。 HTML特殊字符顯示有些字符在HTML裏有特別的含義，比如小於號<就表示HTML Tag的開始，這個小於號是不顯示在我

2020-07-07 10:47:56

ClueTip---精美的信息提示框(頁)

clueTip Plugin Details Multiple Content Sources Smart Positioning Flexible Behavior Style Variety Multiple Conten

2020-07-07 10:47:56

display:box 和 display:flex

出處：https://segmentfault.com/q/1010000003497333 只是flex語法規範更新了幾個版本: 前者display:box是2009年的語法版本，使用時需要加上瀏覽器的前綴，不過現在已經過時了。

2020-07-06 23:27:47

html 清除瀏覽器緩存

<meta http-equiv="Expires" content="0"> <meta http-equiv="Pragma" content="no-cache"> <meta http-equiv="Cache-control"

大可大可抖

2020-07-05 19:01:59

Html Table 表格畫斜線

效果圖在Html Table 表格中畫斜線分文字和斜線兩部分實現文字部分 <th class="row-0" style="width:150px;height:50px;" > <div class="biao

2020-07-05 08:58:20

Apatana Studio 的使用

Aptana中的智能提示（Code Assist）是大家比較感興趣的部分，也是它強於其他工具的重要部分。這裏我再介紹幾點。一．快捷鍵 1．在Aptana中，你可以在文檔的任何位置用 Alt+/ 激活智能提示。當然你也可以把它替換成任

2020-07-05 00:55:54

php解決路徑url中包含特殊字符的復原辦法

php解決路徑url中&轉義爲&復原辦法問題路徑解決方案htmlspecialchars_decode 說明問題路徑 //爲了寫問題，此路徑是我複製的，所以大家可以改成自己的路徑 $qipa_url="http://api.gi

2020-07-04 06:23:11

php使用htmlentities函數轉換html實體

php使用htmlentities函數轉換html實體 $str="<script>alert('www.qipa250.com')</script>"; echo htmlentities($str, ENT_QUOTES);

2020-07-04 06:23:11

使用jquery動態修改video標籤source的src不起作用問題解決方案

使用jquery動態修改video標籤source的src不起作用問題解決方案代碼解決方案load() 方法重新加載音頻/視頻元素代碼 //html代碼 <audio controls="controls" style="ma

2020-07-04 06:23:00

angular用DatePipe進行日期轉換

angular中日期轉換爲要顯示的格式可以使用DatePipe：（1）HTML <span *ngIf="CompareYear(notification.date) !== currentYear; else elseCurren

2020-07-03 19:45:42

將mat-tab 設置爲button

在mat-tab中設置爲 disabled，然後再添加個button <mat-tab disabled> <ng-template mat-tab-label> <button mat-button color

2020-07-03 19:45:42

適合Delphi\VB\C#winForm等程序員的前端框架：HtmlVCL

由於我們Delphi\VB\C#winForm現在是弱勢羣體，也想轉轉型，用OOP去理解各種變態前端框架真是淚奔。大家都在努力跟上時代步伐，但是非常喫力，入門易靈活運用太難。我的好友老曹，他學了半年Div+CSS，最後我問

2020-07-03 08:17:21

js開發實現簡單貪喫蛇遊戲（20行代碼）

<!doctype html> <html> <body> <canvas id="can" width="400" height="400" st

2020-07-03 07:29:26

24小時熱門文章

最新文章

最新評論文章