大數據

人類知識的三大種類與科學的關係
人類所有的知識,可以劃分爲三個大類·自然科學、社會科學和人文藝術。
自然科學的研究對象是物理世界,講的是"精確絲毫不能含糊,衛星上天、潛艇下海,差之毫釐,就會謬以千里。
社會科學研究的是社會現象,探討的是人和社會的關係,如經濟學、政治學、社會學,它也追求精確,但因爲關係到多變善變的人,導致了"測不準所以社會科學又被稱爲"準科學"。
人文藝術則主要包括文學、藝術、哲學,它探討的是人的信仰、情感和價值,並不強調精確,有時候甚至模糊就是美,所以位於科學的最外圈。

在科學的譜系裏,社會科學正好介於自然科學和人文藝術之間。

馮·諾伊曼其實是一名數學家,他之所以被稱爲"計算機之父其最大的貢獻之一,在於他明確了計算機內部的數據組織形式:二進制。

軟件是由程序和數據組成的。二進制的確定,解決了數據在計算機內部傳送"理解"和"流動"的問題,但當數據在計算機內部累積得越來越多的時候,如何快速地組織、存儲和讀取數據又成爲新的挑戰。
計算機科學家一直在研究數據在軟件內部的最佳組織方式。1970 年, IBM的研究員埃德加-科德(Edgar Codd) 發明了關係型數據庫,成爲軟件發展歷史上一個跨越性的里程碑。
此前,數據庫的組織結構以網狀、層級製爲主,複雜多變,程序和數據之間你中有我、我中有你,彼此有很強的依賴性。科德提出的關係型數據庫具有結構化高、冗餘度低、獨立性強等優點,徹底把軟件中的程序和數據分立開來。
從此,軟件的發展成了"兩條腿"走路,程序和數據在各自的軌道上自由奔跑。

科德後來又總結出構建關係型數據庫的"黃金十二定律把理論紮紮實實地推向了實踐,關係型數據庫開始得到大範圍地推廣,引發了一場軟件領域
的革命。科德也因此獲得1981 年的圖靈獎。此後,大型軟件,即大型信息管理系統的應用一日千里、遍地開花。


數據倉庫和數據庫的最大差別在於,前者是以數據分析、決策支持爲目的來組織存儲數據,而數據庫的主要目的則是爲運營性系統保存、查詢數據。


聯機分析(Online Analytical Processing) ,也稱多維分析,本意是把分立的數據庫"相聯進行多維度地分析。"維"是聯機分析的核心概念,指的是人們觀察事物、計算數據的特定角度。例如,跨國零售商沃爾瑪如果要分析自己的銷售量,它可以按時間序列分析、商品門類分析、地區國別分析,也可以按進貨渠道分析、客戶羣體分析,這些不同的分析角度,就叫"維度"。

分析問題的任何角度,都可以視爲一個或多個維度的交叉。例如:
沃爾瑪2011 年在美國紐約州的銷售量是多少?這是個"地區"和"時間"兩個維度交叉的問題。
沃爾瑪2011 年在紐約州奶製品的銷售量是多少?這是個"地區"、"時間"和"產品類別"三個維度交叉的問題。
沃爾瑪2011 年在紐約州進口奶製品的銷售量是多少?這是個"地區"、"時間"、"產品類別"及"供貨渠道"四個維度交叉的問題。

數據挖掘( Data Mining )數據挖掘是指通過特定的計算機算法對大量的數據進行自動分析,從而揭示數據之間隱藏的關係、模式和趨勢,爲決策者提供新的知識。之所以稱之爲"挖掘是比喻在海量數據中尋找知識,就像開礦掘金一樣困難。

如果說聯機分析是對數據的一種透視性的探測,數據挖掘則是對數據進行挖山鑿礦式的開採。它的主要目的,一是要發現潛藏在數據表面之下的歷史規律,二是對未來進行預測,前者稱爲描述性分析,後者稱爲預測性分析。沃爾瑪發現的啤酒和尿布的銷售關聯性就是一種典型的描述性分析;考察所有歷史數據,以特定的算法對下個月啤酒的銷售量進行估測以確定進貨量,則是一種預測性分析。


數據挖掘把數據分析的範圍從"已知"擴大到了"未知從"過去"推向了"將來是商務智能真正的生命力和"靈魂"所在。它的發展和成熟,最終推動了商務智能在各行各業的廣泛應用。

結掏化數據和非結構化數據按結構,數據可以劃分爲兩類,結構化數據和非結構化數據。
結構化數據是指存儲在數據庫當中、有統一結構和格式的數據,這種數據,比較容易分析和處理。非結構化數據是指無法用數字或統一的結構來表示的信息,包括各種文檔、圖像、音頻和視頻等,這種數據,沒有統一的大小和格式,給分析和挖掘帶來了更大的挑戰。從結構化數據到非結構化數據的推進,也代表着可供挖掘的數據在大幅增加。

數據可視化(Data Visualization)數據可視化是指以圖形、圖像、地圖、動畫等更爲生動、易爲理解的方式來展現數據的大小,詮釋數據之間的關係和發展的趨勢,以期更好地理解、使用數據分析的結果。

從最早的點線圖、直方圖、餅圖、網狀圖等簡單圖表,發展到以監控商務績效爲主的儀表盤( dashboard) 、記分板
(scorecard) ,到以交互式的三維地圖、動態模擬、動畫技術等等更加直覺化、趣味化的表現方法,曾經冰冷堅硬、枯燥乏味的數據開始"動"了起來、"舞"了起來,變得"性感" !



按提交方式的信息分類
強制提交的信息:公民和社會組織必須依法提交的信息,如企業和個人的納稅情況、工廠的排污量、車間的衛生指標、產品中各種化學物質的含量等等,提交這些信息,是法定的義務。
選擇提交的信息:對於一些政府補貼或社會福利項目,公民和組織如果決定申請,就必須填報表格、提交信息,以證實其符合該項目的要求。否則,政府可以拒絕其申請。
志願提交的信息:多指政府開展的一些基於社情民意的調查,如政府機關爲徵求公衆意見開展的調查,參不參加調查、
提不提交數據,完全取決於公民和組織的自願。正因爲公民有權拒絕,聯邦政府常常爲這些調查提供一些報酬和獎勵,以鼓勵社會的參與。



邊際成本( Marginal Cost )
邊際成本是指在一個特定的產量水平上,增加一個單位產量所需要增加的成本。例如對電腦製造商而言,多製造一臺電腦需要投入的人工和原材料。由於生產的規模效應,隨着產量的增加,邊際成本可能不斷下降。例如,生產第一臺電腦的成本可能很高,但生產第100 臺時,其成本可能就低很多,生產第10000 臺的時候,其成本可能大幅下降。
邊際成本的不斷下降正是企業利潤的重要來源之一。和邊際成本相對應的經濟學概念是"固定成本"。

政府發佈信息的3 種收費模式
一是利潤最大化模式( Profitmaximizing),指的是政府藉助自己獨家的信息壟斷優勢,向信息需求方收取市場化的價格。
二是平均成本模式( Averagecostor Cost-recovery ) :政府收取一定的費用,這部分費用直接用來支付政府從信息收集到信息發佈的所有開支。
三是邊際成本或免費模式( Marginal-cost or Zerocost),指的是隻收取信息發佈環節所產生的費用,也就是按信息發佈的邊際成本收取費用。


數據能滿足其既定的用途,它纔有質量。如果不能滿足既定的目標和用途,就談不上質量。換句話說,數據的質量不僅取決於它本身,還取決於它的用途。

美國共和黨與民主黨的主要區別
共和黨從1854 年建黨以來,就一直強調私人企業和個人決策對於促進經濟繁榮的重要性,他們長期支持自由的市場
經濟政策,反對政府管制。正因如此,共和黨的候選人一般都會得到美國大財團的支持。
民主黨成立於1791 年,與共和黨相比,民主黨更貼近農民、工人和移民,更注重全民福利、勞工權利和民權立法,也因此被稱爲"平民政黨"。民主黨強調平等、支持政府加強管制,其候選人多得到工會的支持。


奧爾森認爲,每個人都是經濟理性人,也就是說,每個人做事,都會首先考慮自己的利益得失。大家一起行動,一旦行動成功,所有的集體成員都能從中受益,包括那些沒有參與行動的、偷懶的、取巧的、旁觀的、冷嘲熱諷的,甚至使壞的,都將從中獲益,而行動的真正參與者、領導者,卻可能;要付出不同一般的代價。
每個人一計算,都發現自己的最佳策略是"坐等是"圍觀"。也就是說,明知現實不合理,自己也不想出力,都希望別人出頭、自己搭車。這種集體都想、"搭便車"的結果,就是公共利益得不到有效的照顧、大家的權益最終都受到損害。奧爾森還指出,當集體越小、利益衝突越激烈的時候,越容易聯合。當集體越大、利益衝突並不明顯的時候,越難聯合。
奧爾森的理論很好地解釋了爲什麼面對同一部《數據質量法》、同一個問題,公司能夠迅速地組織起來,進行強有力的遊說,而利益受到了侵害的大衆,卻無法組織起來與公司抗衡。這是因爲公司是個小集體,利益集中,容易達成共識,而社會大衆的利益高度分散,很難結盟。

改變美國政府決策的6 種力量:公共知識分子、新聞界、民調機掏、公益組織、國會和法院


"一個人做事情的動機,可以分爲三類:一是求生,二是社會生活,三是娛樂。當我們的動機上升到一個更高的階段時,我們纔會取得進步:不是僅僅爲了求生,更是爲了改變社會,更理想的是一一爲了興趣和快樂。"


軟件是由代碼和數據共同組成的開源指的只是開放代碼,並不包括數據。但當開放代碼已經成爲共識和現實的時候,新一代的創新者,自然又將眼光投向了數據。雖然同爲軟件的一部分,但開放數據(Open Data) 和開放代碼卻大不相同。開放代碼面向的對象僅僅是程序員,也就是說,它停留在技術的層面;但數據的開放,其涉及面卻廣得多,它不僅和技術人員相關,還與數據的來源、性質以及過去和未來的使用人員都息息相關。

公共數據開放的8 大基本原則
1 數據必須是完整的
2 數據必須是原始的
3 數據必須是及時的
4 數據必須是可讀取的
5 數據必須是機器可處理的
6 數據的獲取必須是無歧視的
7 數據格式必須是通用非專有的
8 數據必須是不需要許可證的
如果我們坐等他人,那改變就不會到來。我們自己一-就是我們一直在等的人,我們自己一-就是我們所要尋求的改變。

信息不對稱理論可以很好地解釋其中的原因。該理論指出,掌握信息多的人,在社會競爭中處於有利的地位,而信息貧乏的人,則處於不利的地位。前者可以通過向後者有償轉讓信息來獲取利益,無償出讓,則收穫"善意'只有信息自由流動,各方掌握相同的信息之後,彼此才能建立完全的信任。


萬維網是一個網頁的集合體。這些網頁,即使內容相似、主題相同,但由於分屬不同的網站、存儲在不同的服務器上,他們之間就沒有鏈接和聯繫,這意味着如果用戶想找到它們、分析它們,就必須藉助搜索引擎等工具。這也是谷歌之類的搜索公司爲什麼能成爲商業巨頭的根本原因:在現在的互聯網上,各種信息之間是孤立的,我們要對它們進行整合、分析,就必須依靠人工的外力,目前最好的工具就是搜索引擎。


。一句話,基於數據的分析和競爭已經是零售業的常態,毫不誇張地說,零售業的競爭一定程度上已經成爲一種基於數據的競爭,數據就是企業的財富和金礦,數據分析和挖掘的能力就是企業的核心競爭力。

零售業的這種狀態,並不是企業界的特例。無論是橫向比較行業的數據總量,還是縱向考察數據分析方法的歷史淵源,零售業其實都坐不上數據競爭的"頭把交椅前排就座的還有金融、保險、投資等領域。但零售行業的這種競爭狀態證明,數據的爆炸將影響未來行業的競爭方式,未來的競爭將更加精細化,這種精細化,就體現在數據的收集和分析上。


今天已經看完了《大數據》,這本書是以數據爲軸線,描述了這個美國這個國家的政府,人民,社會對待數據的態度,從美國的大選,到美國人爲了將數據公開,共享付出的艱辛的努力。並且預示着未來人們必須處理好數據,如何收集數據,處理數據,分享數據。數據在人們的生活中的重要作用,並且由於無線傳感網的建立,以後的數據會越來越多,人們如何處理使用這麼龐大的數據?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章