數字的來源及數據思維的發展

源頭茫昧雖難覓,活水奔流喜不休。

——法國著名數學家、科學哲學家昂利·彭加萊(Henri Poincare)

在本章,基本上是按照從古到今的時間軸線,漫談數據的發展簡史[1]。在瞭解大數據的內涵之前,很有必要簡要地回顧一下大數據時代黎明前的漫長曆史。數據是人類認識客觀世界的標度,人類與數據的歷史,可謂是源遠流長。

著名社會學家費孝通先生曾說[2],人類的“當前”,包含着從“過去”歷史中拔萃出來的投影和時間選擇的積累。

翻開人類的科技史,我們很快就會發現,這就是一部人類對事物數據化的歷史。在某個領域,越是能夠用數據來表徵,其科學化的程度就越高,人類對其認識的程度也就越深入[3]

就數據的增長曲線而言,當初極小的初值,需要經歷極其漫長的發展過程,才能達到人類能感知的曲線拐點。當下,“大數據”作爲一個時髦專業術語(buzz word),其歷史還很短暫,但是它所依賴的很多基礎卻是在很久以前就建立了[4]。人類的文明與進步,在某種意義上來說,就是通過對數據的收集、處理和總結而達成的。歷史對於我們來說,並不是什麼可有可無的點綴之飾物,而是實用的、不可或缺的前行之基礎。瞭解相關的歷史,有助於培養我們的數據思維和基於數據的創新能力。

人類的數覺與計數系統

自從人類開始有文字和數字起,數據就開始產生。數據作爲一種計量工具與技術相融合,充分體現了其精確性和實用性的特徵。人類文明的歷程,大部分都可歸屬於小數據時代,甚至極小數據時代。

美籍俄裔理論物理學家喬治•伽莫夫(GeorgeGamow),在其著名科普著作《從一到無窮大》中,杜撰了這麼一個小故事[5]

在非洲一個原始部族裏,有兩個酋長決定做一個數數遊戲——比一比誰說出的數字大,誰就贏。 

“好,” 一個酋長說,“你先說吧!” 

另一個酋長絞盡腦汁想了好幾分鐘,終於說出了他所能想到的最大數字:“3”。 現在輪到另一個酋長動腦筋了。在苦思冥想半天后,他表示認輸:“你贏啦!”


圖1-1  兩個酋長比數數

上面的小故事,其實是想說明,在遠古時代,由於物質極其匱乏,人類對計數系統的認知,還處於懵懂狀態。對少於三個的事物,人們尚能掌控,但對3個以上的事物,就只能稱之爲“很多”或“數不勝數”。在這種情況下,人類遠古時代是很難出現完整的計數系統的。

人類文明的發展,存在嚴重的區域性不平衡。在澳大利亞的原始森林中,至今還有停滯於原始發展水平的部落。他們對數字的感知,普通人也就知道一、二、三。即使是部落裏的“聰明人”,也就只知道四和五。數量再多,他們一概稱之爲“很多很多”。這是人類遠古狀態的無變異延續,可視作“活化石”。

數的概念,始於原始人採集、狩獵等生產活動之中,他們通過對不同類事物之間的比較,逐漸認識到存在某種共同的特徵,然後從感性認識,昇華至抽象層面,於是就產生了數。

數從萌芽到誕生,經歷了極其漫長的歲月。

在進化的矇昧時期,人類已經具備一種才能,即在由同類事物組成的小樣本集合中,當增加或者減少集合中的元素時,儘管我們的先祖還不能確切地知道增減多少,但卻能夠感知到其中有所變化。美籍數學家託拜厄斯•丹齊克(TobiasDantzig)將這種能力,稱之爲“數覺(number sense)”[6]。所謂數(shù)覺,就是不通過數(shǔ)數(shù),一眼就能看出物體多寡的感覺。

這種原始的數覺,在某些動物身上也有體現。例如,有些鳥類就具有數覺,但也僅侷限於小數量的“數覺”。有這麼一側試驗,鳥巢裏原有4個蛋,可以安然地拿走一個(餘下3個),“笨鳥”不會察覺其中的變化,但如果拿去2個蛋(餘下2個),那這隻 “笨鳥”可能就要“先飛”了——因爲鳥巢中蛋的數量變化,已經觸發了它的“數覺”——讓它意識到危險,有外物“動了它的蛋”。這表明,有些鳥類,在用某種方法辨別2和3是不同的。

丹齊克在其科普名作《數:科學的語言》中,提供了一個更有趣的例子:

有一隻烏鴉,在一個莊園主的望樓裏築巢,莊園主不勝其擾,決心打死這隻烏鴉,他嘗試了多次,都沒有成功,因爲人一旦靠近,烏鴉就非常警惕地離開巢穴,遠遠地待在樹上,耐心地等人離開望樓後,再飛回巢穴。

有一天,園主心生一計:決定讓2個人同時走進望樓,然後留一個潛藏裏面,另一個出來走開。但這個烏鴉並不上當,它還是等着,直到第二個人出來。

這個實驗一連做了幾天:兩個人,三個人,四個人,都沒有成功。最後,用了五個人:也像前幾天一樣,先一起進望樓,然後留一人潛藏其內,其他四個人走出來。這次奏效了,烏鴉的數覺“失靈”了——也就是說,但集合變大後,烏鴉已經無法辨別四與五的差別,因此它馬上飛回巢裏,然後被留在望樓的人,逮個正着。


圖1-2  烏鴉的數覺

 “數覺”是動物的基本心理特徵。丹齊克指出,“一種比鳥類高強不了多少的原始數覺,就是產生我們數概念的核心。毫無疑問,如果人類單憑這種直接的數覺,在計算的技術上,就不會比鳥類有什麼進步。但是經歷了一連串的特殊的環境,人類在極爲有限的數覺之外,學會了另一種技巧來給自己幫忙,這種技巧註定了使他們未來的生活受到巨大的影響。這技巧就是計數,並且,正是由於有了計數,我們贏得了用數來表達我們的宇宙的驚人成就。”

需要說明的是,數覺與計數不能混爲一談。數覺是人類早已有之的能力,而計數能力的出現則要晚得多,這也可能是人類獨有的能力。正是有了計數,才使得具體的、表現形式各異的表達多寡的概念,結合成爲統一的、抽象的數的概念。這是數學得以蓬勃發展的重要前提。

需求是發明之母。在需求的驅動下,人類首先發明瞭數字。數字是計數系統的基礎。很多歷史學家都認爲,數字最初起源於對事物的計數,例如在人數、財產(牛羊數等)或交易中的計數。知名技術作家查爾斯·佩措爾德(Charles Petzold)在其著作《編碼》[7]一書中給出了一個非常生動的例子:

在遠古時期,如果有人擁有4只鴨子,可以用圖表示爲如圖1-3-a所示。後來,專門負責畫鴨子的人會“偷懶”地想:爲什麼我非要畫4只鴨子呢,這太麻煩了!爲什麼不能就畫一隻鴨子,再用劃線的多少來表示鴨子的數量呢,於是就出現瞭如圖1-3-b所示的簡化畫法。

類似地,我們還可以用這種簡化畫法用於畫4頭牛、4只羊、……,諸如此類。慢慢地,這個數字“4”就慢慢被抽象出來了(圖1-3-c)。


1-3 數字的抽象化

英國著名哲學家、歷史學家——伯特蘭·羅素(Bertrand Russell,1872~1970)針對數的抽象性,總結道[8]:“僅僅在文明的高級階段上,我們方能以一串數(自然數串)作爲我們發現的起點。發現一對錦雞和兩天都是數字二的實例,一定需要很多時代。其中所包含的抽象程度確實不易達到。”

再後來,人們發現當手頭上的財產多了,譬如說有了27只鴨子,再用這種劃線的方法來標識數量多少,過程就顯得非常之繁瑣,數量也難以做到一目瞭然(如圖1-4-a所示)。這就激勵人們要想出一種更好的方法——於是,一個計數系統就這樣呼之欲出。

從古時至今,人們可能發明了很多計數系統,但延續至今還在用的當屬羅馬數字了。今天,人們還可以在手錶盤上、紀念碑上、一些圖書的頁碼上,看到這些羅馬數字。有了羅馬數字,27只鴨子就可以相對簡潔的表示爲如圖1-4-b所示。


圖1-4 數字系統的形成

如圖1-4-b所示的概念很容易理解:每個X表示10個劃線、V表示5個劃線,而每個豎線代表一個劃線。

在羅馬數字產生之前的更早期,數字還沒有書寫形式時,人類最方便的、最“觸手可及”的計數工具,當屬自己的雙手十指。

在中國成語中,有個詞叫“屈指可數”,表示扳着手指就可以數清楚,形容數量稀少。但在人類社會早期,十個手指頭已經不算少了,作爲計數“利器”,給人類自己的發展幫了大忙。

隨着人類祖先狩獵水平的不斷提高,及部落之間的社交活動日漸頻繁,彼此間需要表達的數也多了起來。於是,人們覺得有必要進一步提升他們的計數能力。用一個手指代表一,五個手指代表五,這樣“一五一十”地來計數。就這樣,數的表達範圍得到了擴大。

在英語中,“Digit(數字)”這個詞,除了有“數字”的意思,同時也有“手指或足趾”的含義,這並不是巧合。而“five(五)”和“fist(拳頭)”這兩個單詞,擁有相同的詞根(fi-),也並非偶然。

丹齊克認爲,人類在計算方面之所以成功,應當歸功於人類的“十指分明”。也就是說,正是有了“十指”,才教會了人類計數,從而把數的範圍無限擴展,以至於形成現在複雜的數論系統。倘若沒有這套“裝置”,人類對數的感知,不會比原始人的數覺高明多少。

手指除了計數,還可以作一些簡單的加減法運算。在某種程度上,手指可以看作人類最早的“計算器”。

用手指計數和計算,固然很方便,可是不能長時間保留計算結果,因爲人們還得用雙手打獵幹活呢!於是,就有人想到了用小石塊、小樹棍等外物表示數。類似地,小石塊、小樹棍等不僅被用作計數,而且還用作簡單的加減法。於是,計數和計算的工具,開始外圍化、“專業化”,這無疑也是一個進步!

在這個發展階段中,人們已經拋棄了必須將被數的物品拿在手中或置於腳下的做法。對此,加爾斯基認爲,在數學上,人類完成了第一次抽象。

從以手指計數,到用外物代表數,人類的這段歷史,至今依然可從幼兒身上看到它的縮影。嬰兒從牙牙學語開始,就對“有或無”及“多或少”有了最初步的概念,他們會用笑或哭,來表達自己對喜愛之物的“數覺”。幼兒再稍大一些後,父母或啓蒙老師就可教他們用手指計數(數數)了。

一個常見的溫馨場面是:當你問幼兒園的小朋友口袋裏有幾顆糖,或家裏來了幾個客人時,他(她)一定會扳着小手指,一個、兩個、三個……認真地數給你看。直到上小學一、二年級,“屈指計數”還一直都是小朋友們做數學加減法的“利器”。

因此,丹齊克認爲,在一定程度上,如果沒有手指,就沒有數的發展,自然也就沒有隨之而來的、人類在物質和精神上進步所依賴的精確科學的發展。

人類的十指,毫無疑問地影響了我們計數系統中的進制基底的選擇,這也是今天我們使用十進制的最根本原因,這是一種“生理上的湊巧”。因此,可以推斷的是,如果人類最初就長有12個手指頭,那麼流行於今天的計數系統,恐怕就是十二進制了。

從文化史的觀點來看,丹齊克認爲,“改變數制的基底,即使可行,也是極不受歡迎的。只要人類一直用十來計數,他的十個手指就一直會使他意識到,他的精神生活的這一最重要方面,也起源於人類自身。”

因此,就讓十進制在“人是萬物的尺度”[9]的見證下,而永存下去吧。



[1] 本章之所以說是漫談,是因爲筆者所介紹的一些歷史,雖力圖保證史實的正確性,但畢竟不是專業的科技史工作者,故難免有不盡人意之處。此外,既然是漫談,內容也不見得十分扣題,信馬由繮的地方也是有的,但這或許也是趣味之所在。

[2]費孝通.鄉土中國.北京大學出版社.2012年10月

[3]黃欣榮. 大數據對科學認識論的發展[J]. 自然辯證法研究, 2014,第9期:83-88.

[4] Bernard Barr. A Brief History of Big Data Everyone Should Read. https://www.linkedin.com/pulse/brief-history-big-data-everyone-should-read-bernard-marr

[5]喬治•加莫夫. 暴永寧(譯).從一到無窮大[M].北京:科學出版社, 2014.

[6](美) 託拜厄斯•丹齊克 著. 蘇仲湘 譯.數:科學的語言——爲有文化而非專攻數學的人寫的評論性概述(Number: The Language of Science --A critical survey written for thecultured non-mathematician)[M].上海教育出版社.1985

[7] 查爾斯•佩措爾德 著. 左飛,薛佟佟譯.編碼:隱匿在計算機軟硬件背後的語言.電子工業出版社,2012年10月

[8]伯特蘭·羅素. 數理哲學導論[M]. 商務印書館, 1982.

[9] 對應的英文是:“Man is the measure ofall things.”普羅泰戈拉是公元前5世紀希臘哲學家,詭辯派的主要代表人物。 "人是萬物的尺度",認爲事物的存在是相對於人的感覺而言的,人的感覺怎樣,事物就是怎樣。萬物的存在與否、性質形態都是相對的,完全取決人的主觀感覺。


本文節選自張玉宏《品味大數據》

發佈了41 篇原創文章 · 獲贊 57 · 訪問量 10萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章