如何用 servlet 打開非 HTML 格式的文檔

摘要
Java Servlet 編程可以很方便地將 HTML 文件發送到客戶端 Web 瀏覽器。然而許多站點還允許訪問非 HTML 格式的文檔,包括 Adobe PDF、Microsoft Word 和 Micorsoft Excel 等。事實上這些非 HTML 格式只要能用 MIME 類型表示,就可以利用 servlet 來發送。本文將以 PDF 和 Microsoft Word 文件爲例,向你介紹如何使用 servlet 傳送非 HTML 格式文件,以及與防火牆交互的方法。
你只要將文件寫到 servlet 的輸出流中,就可以利用 servlet 在瀏覽器中打開一個文件。儘管這看起來非常簡單,在打開非 HTML 格式文檔(比如二進制數據或多媒體文件)的時候,仍要注意一些要點。
首先從獲得 servlet 的輸出流開始:

    ServletOutputStream out = res.getOutputStream();


互聯網上使用 MIME (multipurpos Internet mail extension 多目的互聯網郵件擴展協議)來傳送混合格式、多媒體和二進制數據文件。如果要在 servlet 的 response 對象中打開某個文檔,就必須設置該文檔的 MIME 類型。下面這個例子中我們將打開 PDF 文檔。

MIME 類型
Web 瀏覽器使用 MIME 類型來識別非 HTML 文檔,並決定如何顯示該文檔內的數據。將插件 (plug-in) 與 MIME 類型結合使用,則當 Web 瀏覽器下載 MIME 類型指示的文檔時,就能夠啓動相應插件處理此文檔。某些 MIME 類型還可以與外部程序結合使用,瀏覽器下載文檔後會啓動相應的外部程序。

MIME 類型非常有用。它們允許 Web 瀏覽器處理不同格式的文檔,卻不需要事先嵌入相關知識。Java Servlets 可以使用 MIME 類型來向瀏覽器傳送非 HTML 文件,比如 Adobe PDF 和 Micorsoft Word。使用正確的 MIME 類型能夠保證這些非 HTML 文件被正確的插件或外部程序顯示。本文末的資料部分提供了一些網址,指向一些已定義 MIME 類型列表和關於 MIME 類型的文章。

PDF 文件的 MIME 類型是 "application/pdf"。要用 servlet 來打開一個 PDF 文檔,需要將 response 對象中 header 的 content 類型設置成 "application/pdf":

    // MIME type for pdf doc
    res.setContentType( "application/pdf" );


若要打開一個 Microsoft Word 文檔,你就要將 response 對象的 content 類型設置成 "application/msword":

    // MIME type for MSWord doc
    res.setContentType( "application/msword" );


如果是一個 Excel 文檔,則使用 MIME 類型 "application/vnd.ms-excel"。其中 vnd 表示該應用程序的製造者,必須將它包含在 MIME 類型裏才能夠打開該類型文檔。

有時候瀏覽器不能識別文檔的 MIME 類型。通常這是由於沒有安裝這些文檔需要的插件而導致的。這種情況下,瀏覽器會彈出一個對話框,詢問用戶是否需要打開該文件或是將它保存到本地磁盤上。

Content disposition
一種叫做 content-disposition 的 HTTP response header 允許 servlet 指定文檔表示的信息。使用這種 header ,你就可以將文檔指定成單獨打開(而不是在瀏覽器中打開),還可以根據用戶的操作來顯示。如果用戶要保存文檔,你還可以爲該文檔建議一個文件名。這個建議名稱會出現在 Save As 對話框的“文件名”欄中。如果沒有指定,則對話框中就會出現 servlet 的名字。更多關於 content-disposition header 的信息,可以參閱資料。

在 servlet 中,你需要將 header 設置成下面這樣:

    res.setHeader("Content-disposition",
                  "attachment; filename=" +
                  "Example.pdf" );
    // attachment - since we don't want to open
    // it in the browser, but
    // with Adobe Acrobat, and set the
    // default file name to use.


如果你要打開的是 Microsoft Word 文件,你可以設成:

    res.setHeader("Content-disposition",
                  "attachment; filename" +
                  "Example.doc" );


封裝非 HTML 文檔
完成上述工作後,剩下的就非常簡單了。你需要根據待傳送文件的名字,創建一個 java.net.URL 對象。交給 URL 構造器的字符串必須是指向該文件的一個有效 URL 地址。在這個例子中,我要打開 Adobe employment 格式的文檔:

    String fileURL =
"http://www.adobe.com/aboutadobe/careeropp/pdfs/adobeapp.pdf;"


你的 URL 字符串也可以類似於 http://www.gr.com/pub/somefile.doc 或 http://www.gr.com/pub/somefile.xls。但必須確保待傳送文件類型與先前在 HTTP response 對象中設置的 MIME 類型一致。

    URL url = new URL ( fileURL );


防火牆
如果需要通過防火牆,最後一件要考慮的事情就是你的 URL 鏈接。首先應當蒐集所用代理服務器的相關信息,例如主機名稱和端口號等。更多關於如何通過防火牆建立鏈接的信息,可以參看下面的資料部分。

如果使用的是 Java 2,你應該從 URL 對象類中創建一個 URLConnection 對象,並設置下列系統屬性:

    URLConnection conn = url.openConnection();

    // Use the username and password you use to
    // connect to the outside world
    // if your proxy server requires authentication.
    String authentication = "Basic " + new
sun.misc.BASE64Encoder().encode("username:password".getBytes());

    System.getProperties().put("proxySet", "true");

    System.getProperties().put("proxyHost", PROXY_HOST); // your proxy host
    System.getProperties().put("proxyPort", PROXY_PORT); // your proxy port
    conn.setRequestProperty("Proxy-Authorization", authentication);


如果你使用的是 JDK 1.1,則不能設置這些系統屬性。這種情況下,你可以根據所用代理服務器的信息創建 java.net.URL 對象:

    url = new URL("http", PROXY_HOST,
                  Integer.parseInt(PROXY_PORT),
                  fileURL );
    // assumes authentication is not required


深入工作
開始閱讀你傳送的文檔之前,首先要從 URLConnection (或 URL) 對象中獲得輸入流 InputStream。在這個例子中,用 BufferedInputStream 將 InputStream 封裝起來。

如果你採用 URLConnection,可以嘗試如下代碼:

    BufferedInputStream bis = new
        BufferedInputStream(conn.getInputStream());


如果你使用 URL,則可用下列代碼:

    BufferedInputStream bis = new
        BufferedInputStream(url.openStream());


一旦你完成上述操作,就只要簡單地將 InputStream 中的字節,寫入到 servlet 的輸出流 OutputStream 中:

    BufferedOutputStream bos = new
        BufferedOutputStream(out);

    byte[] buff = new byte[2048];
    int bytesRead;

    // Simple read/write loop.
    while(-1 != (bytesRead = bis.read(buff, 0, buff.length))) {
        bos.write(buff, 0, bytesRead);
    }


在最後的代碼塊中,關閉這些流。

這個例子是利用 doPost 來實現的(doPost 是 HttpServlet 子類的一個方法):

public void doPost(HttpServletRequest req,
                   HttpServletResponse res)
   throws ServletException, IOException
{
    ServletOutputStream out =
        res.getOutputStream ();

//---------------------------------------------------------------
// Set the output data's mime type
//---------------------------------------------------------------

    res.setContentType( "application/pdf" ); // MIME type for pdf doc

//---------------------------------------------------------------
// create an input stream from fileURL
//---------------------------------------------------------------

    String fileURL =
        "http://www.adobe.com/aboutadobe/careeropp/pdfs/adobeapp.pdf";

//------------------------------------------------------------
// Content-disposition header - don't open in browser and
// set the "Save As..." filename.
// *There is reportedly a bug in IE4.0 which ignores this...
//------------------------------------------------------------
    res.setHeader("Content-disposition",
                  "attachment; filename=" +=
                  "Example.pdf" );

//-----------------------------------------------------------------
// PROXY_HOST and PROXY_PORT should be your proxy host and port
// that will let you go through the firewall without authentication.
// Otherwise set the system properties and use URLConnection.getInputStream().
//-----------------------------------------------------------------
    BufferedInputStream bis = null;
    BufferedOutputStream bos = null;

    try {
        URL url = new URL( "http", PROXY_HOST,
                           Integer.parseInt(PROXY_PORT), fileURL );

        // Use Buffered Stream for reading/writing.
        bis = new BufferedInputStream(url.openStream());
        bos = new BufferedOutputStream(out);

        byte[] buff = new byte[2048];
        int bytesRead;

        // Simple read/write loop.
        while(-1 != (bytesRead = bis.read(buff, 0, buff.length))) {
            bos.write(buff, 0, bytesRead);
        }

    } catch(final MalformedURLException e) {
        System.out.println ( "MalformedURLException." );
        throw e;
    } catch(final IOException e) {
        System.out.println ( "IOException." );
        throw e;
    } finally {
        if (bis != null)
            bis.close();
        if (bos != null)
            bos.close();
    }
}


結論
正如你所讀到的,用 servlet 來打開非 html 文檔相當簡單。即使是要通過防火牆也是如此。只要設置了正確的 MIME 類型,就可以使用同樣的代碼來打開圖片或其他多媒體文件。當今的互聯網上包含了大量信息,其中許多數據被存儲爲非 HTML 格式。使用 servlet 能夠克服 HTML 的限制,簡單方便地向用戶傳送這些非 HTML 格式的信息。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章