XML與JSON


一、XML

XML即可擴展標記語言(eXtensible Markup Language)。標記是指計算機所能理解的信息符號,通過此種標記,計算機之間可以處理包含各種信息的文章等。如何定義這些標記,既可以選擇國際通用的標記語言,比如HTML,也可以使用象XML這樣由相關人士自由決定的標記語言,這就是語言的可擴展性。XML是從SGML中簡化修改出來的。它主要用到的有XML、XSL和XPath等。

上面這段是對XML的一個基本定義,一個被廣泛接受的說明。簡單說,XML就是一種數據的描述語言,雖然它是語言,但是通常情況下,它並不具備常見語言的基本功能——被計算機識別並運行。只有依靠另一種語言,來解釋它,使它達到你想要的效果或被計算機所接受。

記住以下幾點就行了:

  • XML是一種標記語言,很類似HTML
  • XML的設計宗旨是傳輸數據,而非顯示數據
  • XML標籤沒有被預定義。您需要自行定義標籤。
  • XML被設計爲具有自我描述性。
  • XML是W3C的推薦標準

總結:

XML是獨立於軟件和硬件的信息傳輸工具。 目前,XML在Web中起到的作用不會亞於一直作爲 Web 基石的 HTML。 XML無所不在。XML是各種應用程序之間進行數據傳輸的最常用的工具,並且在信息存儲和描述領域變得越來越流行。

1.1 XML屬性

1.1.1 XML與HTML的主要差異

  • XML不是HTML的替代。
  • XML和HTML爲不同的目的而設計。
  • XML被設計爲傳輸和存儲數據,其焦點是數據的內容。
  • HTML被設計用來顯示數據,其焦點是數據的外觀。
  • HTML旨在顯示信息,而 XML 旨在傳輸信息

1.1.2 XML是不作爲的。

也許這有點難以理解,但是XML不會做任何事情。XML被設計用來結構化、存儲以及傳輸信息

下面是John寫給George的便籤,存儲爲XML:

上面的這條便籤具有自我描述性。它擁有標題以及留言,同時包含了發送者和接受者的信息。但是,這個 XML 文檔仍然沒有做任何事情。它僅僅是包裝在XML標籤中的純粹的信息。我們需要編寫軟件或者程序,才能傳送、接收和顯示出這個文檔。

1.1.3 XML僅僅是純文本

XML沒什麼特別的。它僅僅是純文本而已。有能力處理純文本的軟件都可以處理XML。 不過,能夠讀懂 XML 的應用程序可以有針對性地處理 XML 的標籤。標籤的功能性意義依賴於應用程序的特性。

1.1.4 XML允許自定義標籤

上例中的標籤沒有在任何XML標準中定義過(比如和)。這些標籤是由文檔的創作者發明的。這是因爲XML沒有預定義的標籤。

在HTML中使用的標籤(以及HTML的結構)是預定義的。HTML文檔只使用在HTML標準中定義過的標籤(比如<p><h1> 等等)。

XML允許創作者定義自己的標籤和自己的文檔結構。

1.1.5 XML不是對HTML的替代

XML是對HTML的補充。

XML不會替代HTML,理解這一點很重要。在大多數 web 應用程序中,XML用於傳輸數據,而HTML用於格式化並顯示數據。

1.2 XML的語法

XML的語法規則很簡單,且很有邏輯。這些規則很容易學習,也很容易使用。

1.2.1 所有元素都必須有關閉標籤

在XML中,省略關閉標籤是非法的。所有元素都必須有關閉標籤。 在HTML,經常會看到沒有關閉標籤的元素:

在XML中,省略關閉標籤是非法的。所有元素都必須有關閉標籤:

註釋:您也許已經注意到XML聲明沒有關閉標籤。這不是錯誤。聲明不屬於XML本身的組成部分。它不是XML元素,也不需要關閉標籤。

1.2.2 XML標籤對大小寫敏感

XML元素使用XML標籤進行定義。

XML標籤對大小寫敏感。在XML中,標籤與標籤是不同的。

必須使用相同的大小寫來編寫打開標籤和關閉標籤:

1.2.3 XML標籤對大小寫敏感

在 HTML 中,常會看到沒有正確嵌套的元素:

在 XML中,所有元素都必須彼此正確地嵌套:

在上例中,正確嵌套的意思是:由於<i>元素是在<b>元素內打開的,那麼它必須在<b>元素內關閉。

1.2.4 XML文檔必須有根元素

XML文檔必須有一個元素是所有其他元素的父元素。該元素稱爲根元素。

1.2.5 XML的屬性值須加引號

與 HTML 類似,XML 也可擁有屬性(名稱/值的對)。 在 XML 中,XML 的屬性值須加引號。請研究下面的兩個 XML 文檔。第一個是錯誤的,第二個是正確的:

1.2.6 實體引用

在 XML 中,一些字符擁有特殊的意義。 如果你把字符 “<” 放在 XML 元素中,會發生錯誤,這是因爲解析器會把它當作新元素的開始。 這樣會產生 XML 錯誤:

爲了避免這個錯誤,請用實體引用來代替 “<” 字符:

在 XML 中,有 5 個預定義的實體引用:

註釋:在 XML 中,只有字符 “<” 和 “&” 確實是非法的。大於號是合法的,但是用實體引用來代替它是一個好習慣。

1.2.7 XML中的註釋

在 XML 中編寫註釋的語法與 HTML 的語法很相似:

在 XML 中,空格會被保留 HTML 會把多個連續的空格字符裁減(合併)爲一個:

輸出: Hello my name is David. 在 XML 中,文檔中的空格不會被刪節。

1.2.8 以 LF 存儲換行

在 Windows 應用程序中,換行通常以一對字符來存儲:回車符 (CR) 和換行符 (LF)。這對字符與打字機設置新行的動作有相似之處。在 Unix 應用程序中,新行以 LF 字符存儲。而 Macintosh 應用程序使用CR來存儲新行。

1.3 XML CDATA

所有XML文檔中的文本均會被解析器解析。

只有CDATA區段(CDATA section)中的文本會被解析器忽略。

1.3.1 PCDATA

PCDATA指的是被解析的字符數據(Parsed Character Data)。

XML解析器通常會解析XML文檔中所有的文本。 當某個XML元素被解析時,其標籤之間的文本也會被解析:

解析器之所以這麼做是因爲 XML 元素可包含其他元素,就像這個例子中,其中的元素包含着另外的兩個元素(first和last):

而解析器會把它分解爲像這樣的子元素:

1.3.2 轉義字符

非法的XML字符必須被替換爲實體引用(entity reference)。

假如您在XML文檔中放置了一個類似 “<” 字符,那麼這個文檔會產生一個錯誤,這是因爲解析器會把它解釋爲新元素的開始。因此你不能這樣寫:

爲了避免此類錯誤,需要把字符 “<” 替換爲實體引用,就像這樣:

在 XML 中有 5 個預定義的實體引用:

註釋:嚴格地講,在XML中僅有字符”<“和”&“是非法的。省略號、引號和大於號是合法的,但是把它們替換爲實體引用是個好的習慣。

1.3.3 CDATA

術語CDATA指的是不應由XML解析器進行解析的文本數據(Unparsed Character Data)。

在 XML 元素中,”<“ 和 ”&“ 是非法的。

“<” 會產生錯誤,因爲解析器會把該字符解釋爲新元素的開始。 “&” 也會產生錯誤,因爲解析器會把該字符解釋爲字符實體的開始。

某些文本,比如 JavaScript 代碼,包含大量 “<” 或 “&” 字符。爲了避免錯誤,可以將腳本代碼定義爲 CDATA。 CDATA 部分中的所有內容都會被解析器忽略。 CDATA 部分由 “<![CDATA[” 開始,由 “]]>” 結束:

這是展示一部電影的具體數據,包括標題、介紹、內容、導演、演員、時長、上映年份等很多內容。

1.5 XML樹結構

XML文檔形成了一種樹結構,它從“根部”開始,然後擴展到“枝葉”。

1.5.1 一個XML文檔實例

XML使用簡單的具有自我描述性的語法:

第一行是XML聲明。它定義XML的版本(1.0)和所使用的編碼(ISO-8859-1=Latin-1/西歐字符集)。

下一行描述文檔的根元素(像在說:“本文檔是一個便籤”):

接下來 4 行描述根的 4 個子元素(to, from, heading 以及 body):

最後一行定義根元素的結尾:

從本例可以設想,該XML文檔包含了John給George的一張便籤。

  • XML具有出色的自我描述性,你同意嗎?
  • XML文檔形成一種樹結構
  • XML文檔必須包含根元素。該元素是所有其他元素的父元素。
  • XML文檔中的元素形成了一棵文檔樹。這棵樹從根部開始,並擴展到樹的最底端。

所有元素均可擁有子元素:

父、子以及同胞等術語用於描述元素之間的關係。父元素擁有子元素。相同層級上的子元素成爲同胞(兄弟或姐妹)。

所有元素均可擁有文本內容和屬性(類似HTML中)。

1.6 XML DOM

想到這裏,大家都有點迫不及待了,XML 文件到底如何解析呢?

但是,別急,讓子彈先飛會兒:–)

在XML解析之前,我們必須系統性的學習一下 XML DOM 知識:

1.6.1 定義

XML DOM(XML Document Object Model) 定義了訪問和操作XML文檔的標準方法。

DOM把XML文檔作爲樹結構來查看。能夠通過DOM樹來訪問所有元素。可以修改或刪除它們的內容,並創建新的元素。元素,它們的文本,以及它們的屬性,都被認爲是節點。

XML DOM是:

  • 用於XML的標準對象模型
  • 用於XML的標準編程接口
  • 中立於平臺和語言
  • W3C的標準

XML DOM定義了所有XML元素的對象和屬性,以及訪問它們的方法(接口)。

換句話說:

DOM將XML文檔作爲一個樹形結構,而樹葉被定義爲節點。

1.6.2 總結

XML DOM其實比較複雜,在這麼短的篇幅裏也無法一一進行講解。想詳細瞭解XML DOM可以好好去學習下

1.7 XML如何解析?

上面講了這麼多關於XML的東西,那麼XML文件應該如何解析呢?

終於到了我們的重頭戲了

下面以視頻項目爲例,展示如何解析XML文件:

1.7.1 Step 1

XML文件是一棵樹,首先需要找到對應的節點,然後從節點開始解析,比如搜索找到的就是result/weights/weight 和result/weights/weight 2個節點,分別從這個開始解析:

1.7.2 Step 2

 找到了對應的Node,即從對應的Node開始遞歸的查找,直到找到最小的節點,也就是最基本的單元Element。再對每一個Element進行解析:

1.7.3 Step 3

 針對獲取到的Element,解析出對應的String將數據傳遞給VideoInfo這個類:

1.7.4 Step 4

 當使用XML解析器將XML數據解析出來之後。需要將這些數據提取出來,也是通過連續2層提取,將數據定位到每個video, 將每個video裏的數據傳遞給SearchVideoInfo這個ArrayList,然後將ArrayList中的數據和對應的Adapter數據關聯起來:

以上就是搜索數據的XML的解析和數據展示過程。

二、JSON

XML很好很強大,但是最近有另外一個時代弄潮兒,這就是JSON。現在JSON的光環已經逐漸超越了XML,各大網站提供的數據接口一般都是JSON。下面我們就來學習下JSON。

2.1 JSON是什麼?

JSON:JavaScript對象表示法(JavaScript Object Notation), 是一種輕量級的數據交換格式, 易於人閱讀和編寫, 同時也易於機器解析和生成。

JSON是存儲和交換文本信息的語法,類似XML。

JSON採用完全獨立於語言的文本格式,但是也使用了類似於C語言家族的習慣(包括C, C++, C#, Java, JavaScript, Perl, Python等)。 這些特性使JSON成爲理想的數據交換語言

2.2 JSON格式

JSON構建於兩種結構:

  1. “名稱/值”對的集合(A collection of name/value pairs)。不同的語言中,它被理解爲對象(object),紀錄(record),結構(struct),字典(dictionary),哈希表(hash table),有鍵列表(keyed list),或者關聯數組(associative array)。
  2. 值的有序列表(An ordered list of values)。在大多數語言中,它被理解爲數組(array)、矢量(vector), 列表(list)或者是序列(sequence)。

JSON具有以下這些形式:

  • 對象是一個無序的“’名稱/值’對”集合。一個對象以“{”(左括號)開始,“}”(右括號)結束。每個“名稱”後跟一個“:”(冒號);“‘名稱/值’ 對”之間使用“,”(逗號)分隔。

JSON Object

  • 數組是值(value)的有序集合。一個數組以“[”(左中括號)開始,“]”(右中括號)結束。值之間使用“,”(逗號)分隔。
  • JSON Array
    • 值(value)可以是雙引號括起來的字符串(string)、數值(number)、true、false、 null、對象(object)或者數組(array)。這些結構可以嵌套。

    JSON Value

    • 字符串(string)是由0到多個Unicode字符組成的序列,封裝在雙引號(”“)中, 可以使用反斜槓(‘\’)來進行轉義。一個字符可以表示爲一個單一字符的字符串。

    JSON String

    • 數字(number)類似C或者Java裏面的數,沒有用到的8進制和16進制數除外。

    JSON Number

    2.3 舉個栗子

    上面關於JSON講了這麼多,大家都表示一頭霧水了吧?

    沒關係,我們來舉個栗子,讓大家有個直觀的感受:–)

    以目前視頻使用的iQiyi提供的頻道接口爲例:

    iQiyi提供的電影頻道的JSON電影數據如下:

 

從上面的例子可以很清晰的看出JSON是如何展示一個電影的數據的,當然這是JSON格式化之後的數據。JSON的元數據是不便於閱讀的。

2.4 如何解析JSON?

Android JSON所有相關類,都在org.json包下。

包括JSONObject、JSONArray、JSONStringer、JSONTokener、JSONWriter、JSONException。

<1>. 常見方法

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章