
RFC1867文檔對WEB表單上傳文件做了詳細的描述,但J2EE的Servlet規範中卻沒有針對此功能規定一個API,沒有接口也沒有抽象類,更不要說一個具體類了。幸好,著名的開源組織Apache的官網上有一個Common File Upload這個項目,給廣大的J2EE開發者解決了這個比較麻煩的問題。會用Common File Upload這個開源組件解決表單文件上傳問題是一回事,能知道這個組件的優缺點是另外一回事,如果能知道RFC1867文檔中對於表單上傳文件的規定、並實現文件上傳的功能,是另外一回事。

幹嘛幹嘛,你這不是閒的蛋疼嘛,有現成的輪子不用,非要再造一個相同的輪子呢?聽起來很有道理,可是呢,只能這麼說,自行車輪子是不裝在汽車上的,福特車的車輪子裝不上奧迪車的,爲了造出最好的車,就得要親子動手再造一個最合適的輪子,寫軟件也是同樣的道理。另外,‭ ‬作爲一個想成爲優秀程序員的人來說,決不會因爲使用了Common File Upload而感到自豪。掌握某種技術的原理,並有所創新,纔是程序員的王道。本文就是要從零開始,實現文件上傳。

好了,廢話了這麼多,就先看看這個表單上傳文件究竟是個什麼東東。RFC1867文檔規定了HTTP表單上傳文件的方式,簡明扼要的說,表單的ENCTYPE必須是multipart/form-data,‭ ‬必須是POST方式提交。每個文件的內容經瀏覽器編碼後,使用一個不會和文件內容重複的串把多個文件或者輸入域分割開來,這個串叫boundary。爲了便於理解RFC1867文檔對於文件上傳時,瀏覽器是如何對文件編碼的,我們把一個含有文件輸入和文本輸入的表單,經瀏覽器編碼後,發送到服務器端的請求dump下來,看看究竟。


Content-Disposition: form-data; name="_file1"; filename="Image023.jpg"

Content-Type: image/jpeg

Content-Disposition: form-data; name="_text1.text1"

some text in mulitpart form




先廢話一句,經編碼後的內容是二進制的,把二進制的內容轉化成字符串,再查找boundary串,這種做法的效率是有問題的,而且,java的字符串處理的效率本身就不高,所以,此路不通。那如何在一大塊二進制的數據中查找到一小塊連續的二進制數據呢?‭ ‬貌似沒有現成的方法,經過考量,發現字符串查找的方法可以借鑑,字符串本質也是二進制,用字符查找算法來查找二進制的內容理論上不存在問題。‭ ‬


	 * Returns the index within this string of the first occurrence of the
	 * specified substring. If it is not a substring, return -1.
	 * @param text
	 *            The string to be scanned
	 * @param word
	 *            The target string to search
	 * @return The start index of the substring

public static int indexOf(byte[] text, byte[] word, int start)

1)    拿到boundary的值,查找這個boundary在整個提交上來的請求中的位置
2)    根據boundary後的一些內容,把識別爲文件的數據塊寫入到文件中
3)    重複這個過程直到請求的輸入流結束


class MultiPartFile {
	private String name;
	private int start, end;

	public MultiPartFile(String name) throws IOException {
		this.name = name;
		fos = new FileOutputStream(name);

	public void append(byte[] buff, int off, int len) throws IOException {
		fos.write(buff, off, len);

	public void append(byte[] buff) throws IOException {

	public void close() throws IOException {



public class FileUploadParser {

	private static final String _ENCTYPE = "multipart/form-data";
	private static final String _FILE_NAME_KEY = "filename";

	private static final byte[] _CTRF = { 0X0D, 0X0A };
	private int bufferSize = 0x20000;

	private byte[] boundary;

	private HttpServletRequest request;

	private String dir;
	private String encoding;

	public FileUploadParser(HttpServletRequest request, String dir) {
		this.request = request;
		this.dir = dir;

        public List<MultiPartFile> parse() throws IOException {
		List<MultiPartFile> files = new ArrayList<MultiPartFile>();
		byte[] buffer = new byte[bufferSize];
		int c = 0;
		boolean hasFile = false;
		boolean end = true;
		while ((c = request.getInputStream().read(buffer)) != -1) {
			boolean isNewSegment = true;
			int index = 0;
			while ((index = BoyerMoore.indexOf(buffer, boundary, index)) != -1) {
				if (end) {
					MultiPartFile mpf = parseFile(buffer, index);
					if (mpf != null) {
						index = mpf.getStart();
						end = false;
						hasFile = true;
					} else {
						hasFile = false; 
						end = true;
						index += boundary.length;
				} else if (hasFile) {
					// write buffer to last opening file if current index identifies the start of boundary.
					// and close the file.
					MultiPartFile writer = files.get(files.size() - 1);
					if (isNewSegment) {
						writer.append(buffer, 0, index - 4);
					} else {
						int off = writer.getStart();
						writer.append(buffer, off, index - off - 4);

					// start a new parse action
					MultiPartFile next = parseFile(buffer, index);
					if (next != null) {
						index = next.getStart();
						end = false;
						hasFile = true;
					else {
						hasFile = false;
						end = true;
						index += boundary.length;

				isNewSegment = false;

			// not found boundary, append the buffer into file
			if (!end) {
				MultiPartFile writer = files.get(files.size() - 1);
				if (isNewSegment) {
					writer.append(buffer, 0, c);
				} else {
					int off = writer.getStart();
					writer.append(buffer, off, c - off);
		return files;
// 其他輔助函數略

至此,解析上傳文件內容並保存的工作就完成了,但是事情還是沒有結束, 瀏覽器在向服務器端發送數據時,會對發送的內容進行編碼,這些編碼的內容需要一個解碼的過程,特別是需要處理中文的web應用。



