人類如何讀懂計算機

 

我在上一篇文章人人都能學編程中講到,計算機是如何讀懂人類的語言,今天我要講的是人類如何讀懂計算機語言

 

640.jpg

 

想要讀懂計算機,就需要把計算機輸出的內容轉化爲我們人類所能理解的語言,然後顯示在屏幕上。

 

我在人人都能學編程中說到過,計算機只能處理二進制數據,那麼如果計算機處理完二進制直接輸出到屏幕上人是看不懂的。那麼也是需要一套翻譯系統根據一套規則幫我們把二進制翻譯成自然語言

 

學過英語的都知道把英語翻譯成漢語,其實就是根據語法規則和單詞。那麼其實計算機也是這樣。

 

很久以前有一羣聰明人他們決定用8個可以開合晶體管來組合成不同的狀態,來表示人類所能理解的數字和符號,他們把這8個晶體管稱爲字節。

640 (1).jpg

 

 

再後來,他們又做了一些可以處理這些字節的機器,可以用晶體管組合出很多種狀態,然後計算機的雛形就誕生了。

 

世界上第一臺通用計算機“ENIAC”於1946年2月14日在美國賓夕法尼亞大學誕

 

第一臺計算機是美國國防部用來計算彈道的,也就是說第一臺計算機是美國用在軍事上的。它非常大,用了18000個電子管,佔地170平方米,重達30噸,耗電功率約150千瓦,每秒鐘可進行5000次運算。

 

640 (2).jpg

 

爲什麼要用這麼多電子管,因爲電子管越多能處理的狀態就越多,這樣能處理的速度就越快。

 

用八位的二進制表示一個字節,一共可以組合出256(2的8次方)種不同的狀態

字節,它是計算機信息技術用於計量存儲容量的一種計量單位,8位二進制數組合起來就有2的8次方種不同的狀態,因爲每一位二進制有2種狀態0和1

 

剛開始計算機把其中的編號從0開始的32種狀態分別規定了特殊的用途,一但終端、打印機收到約定好的這些字節被傳過來時,就要做一些約定的動作。

 

640 (3).jpg

 

如收到 0001 0000, 終端就換行,收到0000 0111, 計算機就向人們嘟嘟叫,收到0000 1001, 打印機就打印反白的字,或者計算機就用彩色顯示字母。於是就規定把這些0010 0000以下的字節狀態稱爲”控制碼”。

 

然後把所有的空格、標點符號、數字、大小寫字母分別用連續的字節狀態表示,一直編到了第127號,這樣計算機就可以用不同字節來存儲英語的文字了。

 

640 (4).jpg

 

 

大家看到這樣,都感覺很好,於是大家都把這個方案叫做ANSI的”Ascii”編碼(美國信息互換標準代碼)。當時世界上所有的計算機都用同樣的ASCII方案來保存英文文字。

 

後來計算機發展越來越廣泛,世界各國爲了可以在計算機保存他們的文字,他們決定採用127號之後的空位來表示這些新的字母、符號,還加入了很多畫表格時需要用下到的橫線、豎線、交叉等形狀,一直把序號編到了最後一個狀態255。從128到255這一頁的字符集被稱”擴展字符集”。

 

640 (5).jpg

 

 

這樣的話所有的狀態都被用完了。

 

等到中國人民開始使用計算機了,發現狀態都被你們用完了,那我們如何來表示中文字符呢?況且有6000多個常用漢字需要保存呢。

 

聰明的中國人就想,靠你們來開發是不可能的了。

 

於是就自主研發,把那些127號之後的奇異符號們直接取消掉。規定:一個小於127的字符的意義與原來相同,但兩個大於127的字符連在一起時,就表示一個漢字。

 

這樣我們就可以組合出大約7000多個簡體漢字了。在這些編碼裏,我們還把數學符號、羅馬希臘的字母、日文都編進去了。

 

連在 ASCII 裏本來就有的數字、標點、字母都統統重新編了兩個字節長的編碼,這就是常說的”全角”字符,而原來在127號以下的那些就叫”半角”字符(也就是佔一個字節)了。

 

中國人民看到這樣很不錯,於是就把這種漢字方案叫做 “GB2312″。GB2312是對ASCII的中文擴展。

 

 

640 (6).jpg

 

但是中國的漢字太多了,後來還是不夠用,於是乾脆不再要求低字節一定是127號之後的內碼,只要第一個字節是大於127就固定表示這是一個漢字的開始,不管後面跟的是不是擴展字符集裏的內容。

 

結果擴展之後的編碼方案被稱爲GBK標準,GBK 包括了 GB2312 的所有內容,同時又增加了近20000個新的漢字(包括繁體字)和符號。後來少數民族也要用電腦了,於是我們再擴展,又加了幾千個新的少數民族的字,GBK擴成了GB18030。

 

因爲當時各個國家都像中國這樣搞出一套自己的編碼標準,結果互相之間誰也不懂誰的編碼,誰也不支持別人的編碼。

 

第一個發明漢字輸入法的是王永民(王碼鍵盤輸入發明者)從此字登上了信息化的舞臺。

 

 

640 (7).jpg

 

當時的中國人想讓電腦顯示漢字,就必須裝上一個”漢字系統”,專門用來處理漢字的顯示、輸入的問題,裝錯了字符系統,顯示就會亂碼。

 

就在這時,一個叫ISO(國際標準化組織)的國際組織看不過去了,決定着手解決這個問題。

 

他們採用的方法很簡單:廢了所有的地區性編碼方案,重新搞一個包括了地球上所有文化、所有字母和符號的編碼!

 

於是所有問題的解決了,也統一的各個國家的所有語言。

 

他們打算叫它”Universal Multiple-Octet Coded Character Set”,簡稱 UCS, 俗稱“UNICODE”

 

UNICODE 來到時,計算機網絡剛好興起,UNICODE如何在網絡上傳輸也是一個必須考慮的問題。

 

於是面向傳輸的衆多 UTF(UCS Transfer Format)標準出現了,顧名思義,UTF8就是每次8個位傳輸數據,而UTF16就是每次16個位,只不過爲了傳輸時的可靠性,從UNICODE到 UTF時並不是直接的對應,而是要過一些算法和規則來轉換。

 

現在我們所使用的計算機基本上所有的操作系統都自帶了UNICODE和UTF8等基本的字符集,可以隨時切換。Windows XP、Windows7操作系統自帶的都是GBK字符集(含2萬餘漢字)

 

這樣的話操作系統就可以幫我們把計算機輸出的二進制翻譯成人類能讀懂的文字了。

 

 

 

那麼圖片和視頻又是如何翻譯的呢?請觀看後續文章

 

 

請關注我的微信公衆號:理想的鍵盤,獲取更多編程知識。

 

掃描二維碼關注:

 

640 (8).jpg

 

 

 

總結一下計算機編碼的發展歷程:

 

●  第一臺計算機誕生,美國國家標準學會制定了 ASCII 編碼。基礎ASCII碼,使用7 位二進制數(剩下的1位二進制爲0)來表示所有的大寫和小寫字母,數字0 到9、標點符號,以及在美式英語中使用的特殊控制字符

 

●中國人民通過對 ASCII 編碼的中文擴充改造,產生了 GB2312 編碼,可以表示6000多個常用漢字。

 

●漢字實在是太多了,包括繁體和各種字符,於是產生了 GBK 編碼,它包括了 GB2312 中的編碼,同時擴充了很多。

 

●中國是個多民族國家,各個民族幾乎都有自己獨立的語言系統,爲了表示那些字符,繼續把 GBK編碼擴充爲 GB18030 編碼。

 

●每個國家都像中國一樣,把自己的語言編碼,於是出現了各種各樣的編碼,如果你不安裝相應的編碼,就無法解釋相應編碼想表達的內容。

 

●  終於,有個叫 ISO 的組織看不下去了。他們一起創造了一種編碼 UNICODE ,這種編碼非常大,大到可以容納世界上任何一個文字和標誌。所以只要電腦上有 UNICODE 這種編碼系統,無論是全球哪種文字,只需要保存文件的時候,保存成 UNICODE 編碼就可以被其他電腦正常解釋。

 

●  UNICODE在網絡傳輸中,出現了兩個標準 UTF-8 和 UTF-16,分別每次傳輸 8個位和 16個位。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章