7.語義網: 更大的數據庫還是挑戰數據庫?

http://blog.csdn.net/mentat/archive/2005/04/15/348375.aspx 

語意網: 更大的數據庫還是挑戰數據庫? 數據庫社會課程期末報告1
什麼是語意網?2
語意網與數據庫的關係3
網頁/超文本挑戰數據庫?4
從歷史的角度來看4
從文件與敘事的角度來看6
數據庫想象的重組8
數據庫表格、個性化、與個人敘事8
個人化 (個性化 personal profile)是好事還是壞事?9
重新回顧Bush的Memex及當今的WWW10
描述領域的型式10
社會力量的增強? 控制的增強?11

自網頁技術(Web)發展以來,人們接觸信息的方式有些許的改變。網頁技術的首
席架構師(architect),網頁技術的發明人,Tim Berners-Lee,提出下一代網頁
的架構的構想,爲語意網(Semantic Web)。若在網頁發展之前,我們的社會是
一個數據庫社會,那網頁發展之後呢? 語意網社會的想象是什麼呢? 與數據庫社
會的差距爲何呢? 爲了探討語意網社會的想象與數據庫社會想象的同異之處,本
文會致力於權力、控制、及能動性的討論。本文主張,語意網的發展,簡單說是
同時延續並改變數據庫社會的革命(revolution),從一個封閉的控制社會變成一
個開放的觀察社會。

什麼是語意網? 語意網是種想象,對現有全球網頁(Web)及超文本(hypertext)發
展的想象。網頁技術的標準制定者,W3C組織,與發明者,Tim Berners-Lee,正
設計着下一代網頁架構的標準。在這個想象當中,語意網是現在網頁的延伸,而
非另起的爐竈;語意網中的信息有清楚的定義,能夠讓人與計算機協同工作,而
不同於現有的網頁只是一堆待讀的電子文件。所謂的「有清楚的定義」,是對信
息有進一步的「描述」(description),而藉由對描述「字彙」(vocabulary)的
語意掌握,讓計算機能進一步對信息的處理,擺脫僅是符號比對的舊習。語意網
是改良目前全球網頁(Web)及超文本(hypertext)的想象。
這並不意味着現有的網頁技術一無可取,相反的,現在的網頁技術堪稱是偉大的
發明。現有的網頁技術,讓文件可以彼此互相連結 (以超級鏈接的方式),讓
一般人都可以出版自己的網頁,供任何一個人閱讀。網頁技術的兩大主要特性
,可連結(linkablity)與普遍性(universality),造就了現有網頁世界的基本架
構。在這個世界裏,每份網頁是開放的,供每一個人閱讀並連結的。

編者加
語意網的定義
「語意網是提供了一個讓資料可以跨越應用程序,企業,以及社羣藩籬相互分享
與重複使用的共通架構。它由 W3C 所主導,並且有大量的研究人員與業界夥伴
參與這個合作計劃。它是以資源描述架構 (RDF) 爲基礎,整合各種使用 XML
語法,URI 命名規則的應用程序。」

「語意網是目前網際網絡的延伸,在語意網裏,信息都將會被賦予完善的意義
(well-defined),讓點腦與人更合作無間。」-- Tim Berners-Lee, James
Hendler, Ora Lassila, 語意網, 科學美國, 2001 年 5 月。

原文﹕

"The Semantic Web is the representation of data on the World Wide Web.
It is a collaborative effort led by W3C with participation from a
large number of researchers and industrial partners. It is based on
the Resource Description Framework (RDF), which integrates a variety
of applications using XML for syntax and URIs for naming."

"The Semantic Web is an extension of the current web in which
information is given well-defined meaning, better enabling computers
and people to work in cooperation." -- Tim Berners-Lee, James Hendler,
Ora Lassila, The Semantic Web, Scientific American, May 2001

Link:Semantic Web
語意網既然是現有網頁技術的延伸,所延續的傳承自然是新舊都有。舊的部份
主要在於(1)「現有網頁文件標記技術」以及(2)「更早的數據庫技術」;新的
部份主要在於將語言符號系統的語意(semantics)加入標記技術,以便計算機
及人類對信息的進一步處理。討論技術史,得考察其社會發展脈絡,而本文會
先針對「現有網頁文件標記技術」與「更早的數據庫技術」的競合關係,再立
論語意網的發展想象,是個社會的想象建構。
語意網與數據庫的關係
我認爲,網頁的興起在形式上及取用上,挑戰了數據庫的形式與使用,而
語意網的努力是企圖讓現有的網頁技術,能夠進一步採用數據庫的處理模式。
我之所以會這樣認爲,可以從Tim Berners-Lee在2001年<<科學美國人>>雜誌
文章的開頭例子來說明。在這個例子中,一位女兒知道她媽媽需要看專科醫生
,並接着要做一些物理治療療程,這毎女兒只需要靠自己瀏覽器的代理人,
從醫生那邊的計算機代理人取得處方資料,再上網找到服務提供者的列表,
而從中過濾出媽媽保險有的,離家20英哩以內的,評比爲佳及優的。然後,
瀏覽器的代理人會跟符合標準的服務提供者的計算機代理人,排看診治療的
時段,比較的是女兒和服務提供者的有空時間。
從這個例子來看,這是個數據庫與數據庫的數次交換運用,但這個想象和
以往數據庫使用不同。數據庫的使用,通常是跟着一個組織的,而跨組織
的數據庫比對使用,常常不是從『個人』的需求出發,而是要找到『個人』
爲終點。以往數據庫使用,尤其是以政府或企業的角度出發,是定位一個人
的記錄,而現在的數據庫,尤其隨着網頁技術發展及使用普及,似乎以
『個人化』爲前題。儘管如此,如同本文將討論的,這並不意謂着組織的
控制退出,讓給個人的自由,這是種權力控制的改變。

這個由Tim Berners-Lee提的例子,現有的網頁技術當然做不到,但這個
做不到的本身,代表了一個距離,一個現有網頁技術與數據庫技術的距離。
讓我們暫時先把新科技的允諾放一旁,這個例子的需求,是可以由現有的
數據庫技術達成,差別在於這些分屬於不同組織及個人的數據庫要能彼此
交換資料,而且要有一個比對程序對這些資料做處理。然而,這樣處理模式
,現實上不可行的原因在於,數據庫的整合與交換是個難題,再者,程序
的要求可能隨時不同,不同的數據庫不同的格式不同的需求都需要不同的
程序來處理,這是數據庫長久以來的問題。

所以我認爲,觀察當今語意網技術的發展,有一股力量是想借着網頁技術
的普遍性(universality) 與可連結(linkablity),來處理數據庫交換、
整合的問題,這股力量雖然是從數據庫出發,但也面臨資料開放的網頁基
本特性。而用來處理數據庫交換及整合的技術,主要是來自於語言學的傳
統與技術的語意學,這帶入了語言及上下文的複雜度,也正在將數據庫以
『表格』爲主的型式,帶往『圖』(graph)與『樹』(tree)的連結型式。
這些型式的轉變,配合我個人對網絡使用的經驗與觀察,我發現一種更開放
的、更具監視性的、權力更滲透的轉變。儘管網際網絡的發展,常放在自由
放任主義(libertarians)與政府企業的管制的脈絡之下,我發現Foucault
的微觀權力學有助於釐清一些概念。最重要的一點,從數據庫到語意網的走
向,說明了「沉重嚴密的紀律被分解,變成可轉換、可調節的、靈活的控制
方法」。從資料格式的使用、轉變、及應用的細節考察,我們可以發現,
若數據庫社會象徵的是組織的封閉的官僚管理,那麼網頁象徵的是彈性化的
、開放的控制管理,而語意網的走向與未來,則是這兩種控制形式的交流
及交戰。
這也是爲什麼,語意網可以被視爲一種全球連結的數據庫,但是是和以往不
太相同的數據庫。
這樣的轉變,可以從網頁/超文本做爲挑戰數據庫的歷史開始。
網頁/超文本挑戰數據庫?
從歷史的角度來看
請允許我用較戲劇的方式,將發生在二次世界大戰前後的兩個歷史事件擺在
一起,來考古網頁/超文本與數據庫的不同但彼此有影響的發展脈絡。
早在二次世界大戰開打前,美國企業IBM (國際商務機器公司) 就有提供納粹
德國處理打孔卡片資料的技術,而這個過去,有不少人認爲成爲納粹德國後來
集體迫害猶太人的官僚技術基礎。數據庫的資料收集及分類在此歷史事件
中彰顯的是國家力量的「分類」(classification)控制。
二次世界大戰後,美國一位科學家Vannevar Bush提出一個記憶機 (Memex)
的想象,這個想象開創了現有超文本技術及未來語意網的可能,本文同意
Andy van Dam的看法,認爲Bush的記憶機 (Memex)想象重要性不在於其是
否能預測未來,而是這個想象,直接與間接地影響當今網頁(web)超文本
(hypertext)發展。
我對Vannevar Bush的記憶機 (Memex)的提出背景有以下的解讀:在二次
世界大戰後,科學家們的協同研究與發展,將不會像在戰爭其間一樣,
因國家的戰爭需求而緊密結合。Bush的記憶機 (Memex),是科學家及研究
者的文件數據庫,除了允許「儲存」(store) 研究者所需的文件資料及筆記
心得外,還能將研究者及文件、研究者與研究者之間「路痕」(trail)記錄
起來。
也因此Vannevar Bush的記憶機 (Memex),有像數據庫及不像數據庫的地方。
在儲存的功能方面,是像數據庫,但存的是研究者個人的文件,這一點和
織收集的記錄有點差距。最不像數據庫的地方可以算是「路痕」(trail)
記錄了,而這一點正是當今網頁/超文本的「連結」(link) 前身。不管是
Bush口中的「路痕」(trail)還是我們現在說的超本本的 「連結」(link)
,依賴的是人們對意義的聯想(associative)標誌(mark up)。
Leslie Carr(2000?)回顧這五十年來的發展,提供了一個有趣的比較。Carr突出
Bush的「路痕」(trail) 的聯想(associative)觀念,認爲Bush的主張是
要讓研究者能將來自不同的研究領域、不同組織型態、不同出版商的文
件,連/聯 在一起。Carr在此將Bush的記憶機 (Memex)與H.G. Wells
(1937)在二次世界大戰前,所提出的「永久世界百科」(Permanent
World Encyclopaedia),做出對比。雖然和Bush一樣,倡議用微縮影片
(microfilm)做爲儲存設備,但兩者的世界觀及解決方法不同。Carr認爲
,Wells看到的是碎裂的學術組織,倡議一個全球的貯藏處,來做儲存
、分類、及索引 (store, classify, and index),而Bush看到的是
碎裂的學術知識,倡議一個從個人記憶代理機器,來做儲存、回想、
及再組合 (store, recall, and recombine)。Carr提供的比較不僅僅
是功能性的比較,還是對數據庫組織 (甚至是組織的組織方式) 的差
異看待。在Carr眼中,Wells的決解方案爲收藏(collection)、層級(
hierarchy)、及索引(index),但Carr眼中的Bush是要用個人的「路痕」
(trail)來超越這些組織的建構。
也是從以上的討論,Carr認爲當今的網頁網絡(WWW),在許多方面比
較像H.G. Wells (1937)的「永久世界百科」(Permanent World
Encyclopaedia),而不像Vannevar Bush的記憶機 (Memex)。Carr
認爲當今的網頁網絡(WWW)充滿外顯、含蓄的組織層級、分類、
及索引系統,而連結在其中的角色則較爲尷尬。本文也同意Carr
對網頁網絡(WWW)的觀察,當今被認可爲主流的建構方式,是層級
(hierarchy)的展示、由後端數據庫支持資料,而將超文本的連結能力
做爲額外特別的航行。
從歷史發展來看,網頁網絡(WWW)對數據庫的挑戰可以簡化成個人的
聯想連結與組織的層級分類的拉拒。而連結的存在,突顯了這兩種
思維的緊張關係。
從文件與敘事的角度來看
從連結的有無,來看網頁網絡(WWW)與數據庫的差距其實不夠,
Lev Manovich將敘事(narrative)與數據庫的概念做比較,提供了另外
一種角度,以下我會引入並批評這樣的說法,提出一個釐清「數據庫」
做爲概念詞的討論。
在〈數據庫作爲象徵形式〉一章中,Manovich認爲計算機時代的新
媒體(new media)對象,偏愛數據庫的形式,而非傳統的敘事形式。
在談Manovich將數據庫與敘事放在一起討論的方式之前,我們先記
得Carr詮釋數據庫與記憶機(Memex)的差異在於個人的聯想連結與
組織的層級分類。換句話說,聯想(assoicative)與個人(personal)
是Carr用以改進數據庫的層級分類(hierarchical classification)及數據庫由組織所獨佔的問題。Manovich的出發點
則不太一樣,Manovich是從現有的新媒體創作形式中,嗅出數據庫
的邏輯 (Database Logic)。
Manovich口中說的數據庫 (Database)定義較廣,也稍微區分了計算
機科學領域與使用者觀點的不同。在計算機科學領域中,資料組織
模型觀點,數據庫可能有階層的、網絡的、關連的、對象導向的型
別(types);而使用者所見的數據庫則是項目的集合 (a collections
of items),使用者可以觀看、航行、搜尋。從此務實的出發點,
讓Manovich想要探討這樣的使用方式,和原來的仰賴敘事模式的
閱讀有何差異。Manovich更進一步接續美史學家Ervin Panofsky
對「線性觀點」做爲現代的象徵形式( symbolic form of the
moderan age),主張「數據庫」做爲計算機時代的新象徵形式。
Manovich的主張不無問題 (比如說他沒有處理數據庫組織化s
tructured與網絡網頁Web的沒組織的差異),但其將敘事與數據庫
的比較來說,倒是個有趣的起點。
Manovich認爲,做爲文化形式,數據庫的世界是項目的列表而
拒絕排序 (這點可以有不少的爭論) ,而相較之下,敘事則創造
了一種困果的軌道(trajectory),將看來沒序列的項目整裏出來。
也因此,這兩種形式,在Manovich眼中是天生的敵人。Manovich
將計算機遊戲的角色突出,認爲計算機遊戲仰賴敘事 (雖然是比較
像計算機算法的敘事) ,不同於CD-ROM或網站等,仰賴像數據庫
的組織方式 (相對地對應到數據結構)。更進一步,Manovich主張,
媒體對象實際上全是數據庫,不論表面上是否遵循數據庫邏輯,
而新媒體的作品對象,可以視爲近用數據庫的接口建構
( the construction of an interface to database)。這種接口是
計算機時代說故事的方式,當數據庫成爲創意過程的中心。
儘管Manovich突出了數據庫的角色,但並不是任意的數據庫記錄的
排列就可以構成敘事,Manovich認爲需要更多的元素,光是加上記錄
之間的連結(links)不夠。也因此,Manovich推論,一般說法認爲使
用者只要創造出不同的路徑,就能建構出其獨特的敘事,是種錯誤
的假設。
Manovich的貢獻在於突顯數據庫的角色,尤其在數據庫/敘事的語言
配對中,數據庫是無記號的(unmarked as in Semiotics)。Manovich
一步發展其數據庫的符號學,認爲突顯的常是實際敘事,而非數據庫
資料的選取。Manovich對連結就能提供互動(interaction)的說法,
從而提出批判。然而Manovich跳躍式地將數據庫看成一種創作的想象
,和敘事做爲對立,早在希臘時代就存在,因爲他認爲希臘有史詩般
的敘事,有數據庫式的百科全書。這概念的轉變,讓Manovich 過度
詮釋數據庫爲創作素材的集合,進而幾乎推翻其突顯計算機時代的數
據庫重要角色的主張。
數據庫想象的重組
從Manovich的數據庫邏輯主張來看,挑戰了個人 (不管是使用者或設
計者)所做的聯想連結必然產生敘事的說法。從Carr突顯聯想連結的
觀點,挑戰了數據庫層級與分類的基本傾向。Manovich與Carr對數據
庫的想象的確有所不同,以下我想從Focault的表格概念,來區分數
據庫與連結敘事(link narrative)的差別。
數據庫表格、個性化、與個人敘事
因此,紀律的第一個重大運作就是制訂「活物表」(tableaux vivants)
,把無益或有害的烏合之衆變成有秩序的多元體。制訂「表格」是
18世紀科學的、政治的和經濟的技術所面臨的重大問題之一…在18世紀
,表格既是一種權力技術,又是一種知識規則。它關係到如何組織複雜
事物、獲得一種涵蓋和控制這種複雜事物的工具的問題, 關係到如何
給複雜事物一種“秩序”的問題。
Focault
若將數據庫的歷史,不要追溯到Manovich提及的希臘時代就有的百科
全書,而是Focault看到的「表格」。 表格,照Focault的說法,同時
是一種權力技術也是知識規則,其存在爲的是要使複雜的事物獲得秩序
。Focault的說法很能解釋從十八世紀一直到二次世界大戰國家動員的
計算性權力,如同IBM爲納粹德國所做的打孔索引系統類似,是個大型的
、以「國家」或「市場」爲單位所做的數據庫表格,在這個表格中,個
人通常是一筆資料(record),而分層的、持續的、切實的監督展現在數
據庫的擁有權及操縱權上,Focault稱之爲文件領域,或者叫記錄領域
。在這由一大批文件限定人們的領域中,所謂的「個人」符碼及特徵
編碼逐漸確立,也確立個人在權力關係中的「形式化」。對Focault來
說,是檢查的需要將個體引入文件領域,而我們正進入無窮盡的檢查
和被迫客體化時代。
個人化 (個性化 personal profile)是好事還是壞事?
個人化,在Focault 看到的規訓制度中,是一種壞事。Focault 區分君
權時期及現代規訓制度中個人化的意義差別,在君權時期,個人化是
「上升」的,文學記載、留芳百代、姓氏和家譜、等等,說明了權力
愈高纔能有個人化;相反的,在現代規訓制度中,權力的行使不是盛
大權式也不是紀念性文字,而是一種下降的「個人化」。因此,
Focault 會說,「在一個規訓制度中,兒童比成年人更個人化,病人
比健康人更個人化,瘋人和罪犯比正常人和守法者更個人化」。
也許我們應把Focault 的說法重心,從個人化的比較轉移到權力的彰
顯變隱蔽的事情上。個人化之所以變的下降,主要的是權力行使變的
隱蔽、隱在由市場及國家所擁有的大批文件所組成的描述領域當中。
這也難怪數據庫的發展與使用歷史,和市場及國家的主要玩家有極
密切的關係。
重新回顧Bush的Memex及當今的WWW
Vannevar Bush的記憶機 (Memex)想象,的的確確是應放在二次世界
大戰後,Bush做爲一個科學家的想象。Bush的「路痕」(trail) 的聯想
(associative)觀念,以及其從個人出發的觀點,可以先理解爲一種
科學家對協同工作的可能。這時「個人化」指的對像是研究者,這個
角色可以是國家要求科學家成效的一種監控及觀察 (這是Bush完全沒
有提及的),也可以是將文件個人化甚至公共化的一種要求,如Bush
在裏面強調的,一些文件資料,尤其是百科全書,應該能以微縮影片
低價的方式讓個人擁有並發展其研究的「路痕」。
這時我們再借用並稍加批評Focault的「描述領域」概念,能更理解
這樣的轉變。首先,我們可以記憶機的出現視爲更無所不在的監控,
因爲科學家或研究者不僅僅要產生出研究成果,更要求記錄甚至公開
研究的過程,正如同Focault認爲,這樣的過程是個規訓的過程,
而描述不是爲了提供未來回憶的紀念碑,而只是不時之需的文件。
再來,我們進一步強調記憶機的出現是另一種個人控制的技藝,
甚至到了一種無所不在的內化境界。
然而,Focault的立論,在權力與描述領域方面的觀察,雖然有其
創見,但似乎泯滅了詮釋價值的差異。就算在現代,一位名人的
回憶錄和一位無名小卒的身家資料仍有很大的差距,而這樣的差距
不是單單以描述領域的概念可以解釋的。似乎能成爲敘事的故事,
和成爲資料的記錄,在社會文化價值上仍有不小的差距,雖然兩者
都有控制的監視,但用來做爲規訓方法完全顛倒了「可描述」的標
準是有問題的。
描述領域的型式
也許描述領域的型式有其階層之分。描述做爲監控的權力形式在
個人化之中,被描述的與描述的個體也持續擴大當中,然而這樣
擴大的過程,有人會說這是一種民主化,有人會說這是一種無所
不在的監控,(或者民主就是一種無所不在的監控),但最主要應
該觀察的是,在這擴大的過程之中,權力形式與描述領域的區分
與階層化。
WWW的發展,其網頁技術的兩大主要特性,普遍性(universality)
與可連結(linkablity),就分屬於不同的描述領域。普遍性企圖
開放原來封閉的,由企業及國家擁有的數據庫同時,一方面也讓
原來僵硬的大型的數據庫形式變的更靈活、更分散、更易交換的
形式。這讓我們想起Focault所描繪的監獄到全景敞視主義,國家
型資本主義到流動的資本主義的轉變。普遍性可以說是原有描述
領域的重組及靈活整合,這說明了在1990年代新經濟起飛時對WWW
的想象。網頁技術的可連結(linkablity)也因此不如普遍性
(universality)來受到重視,因爲WWW的一般想象,被視爲一個
大數據庫或全球的文件儲存所在,要一直到網絡日誌(weblog)
的發展,網頁技術的可連結(linkablity)纔有像Bush在記憶機所
強調的,有聯想的、有走過的路徑的可能。
社會力量的增強? 控制的增強?
在新聞及軟件的領域,我們可以看到記錄與敘事的拉拒,而我們
可以假定,社會力量的增加與控制力量的增強同義,一如同Bush與
科學研究者社羣的關係。然而這樣的控制,在描述領域上,我們
可以觀察到一種從表格記錄的組織偏好,轉向到故事敘事的個人
偏好。近年來興起的開放編輯 (open journalism) 與自由軟件鑄
造場的監視力量,正是一種更具彈性的控制及生產力量,其表現
形式通常是更具彈性及連結及開放能力的網頁連結形式,而不同
於傳統的封閉的數據庫。
這時我們更能理解,爲何WWW的發明人Tim Berners-Lee強調未來
的語意網做爲「具創造力的社會機器」(creative social machine)
的涵意,此處的創造力包涵了兩種可能,一種是社會監控的現代
技藝,這是承襲了更普遍的自我監控,另一種則是個人敘事的
創意需求,這和早先組織要求效率的數據庫記錄有所不同。

發佈了1 篇原創文章 · 獲贊 0 · 訪問量 5萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章