大數據

人類知識的三大種類與科學的關係
人類所有的知識，可以劃分爲三個大類·自然科學、社會科學和人文藝術。
自然科學的研究對象是物理世界，講的是"精確絲毫不能含糊，衛星上天、潛艇下海，差之毫釐，就會謬以千里。
社會科學研究的是社會現象，探討的是人和社會的關係，如經濟學、政治學、社會學，它也追求精確，但因爲關係到多變善變的人，導致了"測不準所以社會科學又被稱爲"準科學"。
人文藝術則主要包括文學、藝術、哲學，它探討的是人的信仰、情感和價值，並不強調精確，有時候甚至模糊就是美，所以位於科學的最外圈。

在科學的譜系裏，社會科學正好介於自然科學和人文藝術之間。

馮·諾伊曼其實是一名數學家，他之所以被稱爲"計算機之父其最大的貢獻之一，在於他明確了計算機內部的數據組織形式:二進制。

軟件是由程序和數據組成的。二進制的確定，解決了數據在計算機內部傳送"理解"和"流動"的問題，但當數據在計算機內部累積得越來越多的時候，如何快速地組織、存儲和讀取數據又成爲新的挑戰。
計算機科學家一直在研究數據在軟件內部的最佳組織方式。1970 年， IBM的研究員埃德加-科德(Edgar Codd) 發明了關係型數據庫，成爲軟件發展歷史上一個跨越性的里程碑。
此前，數據庫的組織結構以網狀、層級製爲主，複雜多變，程序和數據之間你中有我、我中有你，彼此有很強的依賴性。科德提出的關係型數據庫具有結構化高、冗餘度低、獨立性強等優點，徹底把軟件中的程序和數據分立開來。
從此，軟件的發展成了"兩條腿"走路，程序和數據在各自的軌道上自由奔跑。

科德後來又總結出構建關係型數據庫的"黃金十二定律把理論紮紮實實地推向了實踐，關係型數據庫開始得到大範圍地推廣，引發了一場軟件領域
的革命。科德也因此獲得1981 年的圖靈獎。此後，大型軟件，即大型信息管理系統的應用一日千里、遍地開花。

數據倉庫和數據庫的最大差別在於，前者是以數據分析、決策支持爲目的來組織存儲數據，而數據庫的主要目的則是爲運營性系統保存、查詢數據。

聯機分析(Online Analytical Processing) ，也稱多維分析，本意是把分立的數據庫"相聯進行多維度地分析。"維"是聯機分析的核心概念，指的是人們觀察事物、計算數據的特定角度。例如，跨國零售商沃爾瑪如果要分析自己的銷售量，它可以按時間序列分析、商品門類分析、地區國別分析，也可以按進貨渠道分析、客戶羣體分析，這些不同的分析角度，就叫"維度"。

分析問題的任何角度，都可以視爲一個或多個維度的交叉。例如:
沃爾瑪2011 年在美國紐約州的銷售量是多少?這是個"地區"和"時間"兩個維度交叉的問題。
沃爾瑪2011 年在紐約州奶製品的銷售量是多少?這是個"地區"、"時間"和"產品類別"三個維度交叉的問題。
沃爾瑪2011 年在紐約州進口奶製品的銷售量是多少?這是個"地區"、"時間"、"產品類別"及"供貨渠道"四個維度交叉的問題。

數據挖掘( Data Mining )數據挖掘是指通過特定的計算機算法對大量的數據進行自動分析，從而揭示數據之間隱藏的關係、模式和趨勢，爲決策者提供新的知識。之所以稱之爲"挖掘是比喻在海量數據中尋找知識，就像開礦掘金一樣困難。

如果說聯機分析是對數據的一種透視性的探測，數據挖掘則是對數據進行挖山鑿礦式的開採。它的主要目的，一是要發現潛藏在數據表面之下的歷史規律，二是對未來進行預測，前者稱爲描述性分析，後者稱爲預測性分析。沃爾瑪發現的啤酒和尿布的銷售關聯性就是一種典型的描述性分析;考察所有歷史數據，以特定的算法對下個月啤酒的銷售量進行估測以確定進貨量，則是一種預測性分析。

數據挖掘把數據分析的範圍從"已知"擴大到了"未知從"過去"推向了"將來是商務智能真正的生命力和"靈魂"所在。它的發展和成熟，最終推動了商務智能在各行各業的廣泛應用。

結掏化數據和非結構化數據按結構，數據可以劃分爲兩類，結構化數據和非結構化數據。
結構化數據是指存儲在數據庫當中、有統一結構和格式的數據，這種數據，比較容易分析和處理。非結構化數據是指無法用數字或統一的結構來表示的信息，包括各種文檔、圖像、音頻和視頻等，這種數據，沒有統一的大小和格式，給分析和挖掘帶來了更大的挑戰。從結構化數據到非結構化數據的推進，也代表着可供挖掘的數據在大幅增加。

數據可視化(Data Visualization)數據可視化是指以圖形、圖像、地圖、動畫等更爲生動、易爲理解的方式來展現數據的大小，詮釋數據之間的關係和發展的趨勢，以期更好地理解、使用數據分析的結果。

從最早的點線圖、直方圖、餅圖、網狀圖等簡單圖表，發展到以監控商務績效爲主的儀表盤( dashboard) 、記分板
(scorecard) ，到以交互式的三維地圖、動態模擬、動畫技術等等更加直覺化、趣味化的表現方法，曾經冰冷堅硬、枯燥乏味的數據開始"動"了起來、"舞"了起來，變得"性感" !

按提交方式的信息分類
強制提交的信息:公民和社會組織必須依法提交的信息，如企業和個人的納稅情況、工廠的排污量、車間的衛生指標、產品中各種化學物質的含量等等，提交這些信息，是法定的義務。
選擇提交的信息:對於一些政府補貼或社會福利項目，公民和組織如果決定申請，就必須填報表格、提交信息，以證實其符合該項目的要求。否則，政府可以拒絕其申請。
志願提交的信息:多指政府開展的一些基於社情民意的調查，如政府機關爲徵求公衆意見開展的調查，參不參加調查、
提不提交數據，完全取決於公民和組織的自願。正因爲公民有權拒絕，聯邦政府常常爲這些調查提供一些報酬和獎勵，以鼓勵社會的參與。

邊際成本( Marginal Cost )
邊際成本是指在一個特定的產量水平上，增加一個單位產量所需要增加的成本。例如對電腦製造商而言，多製造一臺電腦需要投入的人工和原材料。由於生產的規模效應，隨着產量的增加，邊際成本可能不斷下降。例如，生產第一臺電腦的成本可能很高，但生產第100 臺時，其成本可能就低很多，生產第10000 臺的時候，其成本可能大幅下降。
邊際成本的不斷下降正是企業利潤的重要來源之一。和邊際成本相對應的經濟學概念是"固定成本"。

政府發佈信息的3 種收費模式
一是利潤最大化模式( Profitmaximizing)，指的是政府藉助自己獨家的信息壟斷優勢，向信息需求方收取市場化的價格。
二是平均成本模式( Averagecostor Cost-recovery ) :政府收取一定的費用，這部分費用直接用來支付政府從信息收集到信息發佈的所有開支。
三是邊際成本或免費模式( Marginal-cost or Zerocost)，指的是隻收取信息發佈環節所產生的費用，也就是按信息發佈的邊際成本收取費用。

數據能滿足其既定的用途，它纔有質量。如果不能滿足既定的目標和用途，就談不上質量。換句話說，數據的質量不僅取決於它本身，還取決於它的用途。

美國共和黨與民主黨的主要區別
共和黨從1854 年建黨以來，就一直強調私人企業和個人決策對於促進經濟繁榮的重要性，他們長期支持自由的市場
經濟政策，反對政府管制。正因如此，共和黨的候選人一般都會得到美國大財團的支持。
民主黨成立於1791 年，與共和黨相比，民主黨更貼近農民、工人和移民，更注重全民福利、勞工權利和民權立法，也因此被稱爲"平民政黨"。民主黨強調平等、支持政府加強管制，其候選人多得到工會的支持。

奧爾森認爲，每個人都是經濟理性人，也就是說，每個人做事，都會首先考慮自己的利益得失。大家一起行動，一旦行動成功，所有的集體成員都能從中受益，包括那些沒有參與行動的、偷懶的、取巧的、旁觀的、冷嘲熱諷的，甚至使壞的，都將從中獲益，而行動的真正參與者、領導者，卻可能;要付出不同一般的代價。
每個人一計算，都發現自己的最佳策略是"坐等是"圍觀"。也就是說，明知現實不合理，自己也不想出力，都希望別人出頭、自己搭車。這種集體都想、"搭便車"的結果，就是公共利益得不到有效的照顧、大家的權益最終都受到損害。奧爾森還指出，當集體越小、利益衝突越激烈的時候，越容易聯合。當集體越大、利益衝突並不明顯的時候，越難聯合。
奧爾森的理論很好地解釋了爲什麼面對同一部《數據質量法》、同一個問題，公司能夠迅速地組織起來，進行強有力的遊說，而利益受到了侵害的大衆，卻無法組織起來與公司抗衡。這是因爲公司是個小集體，利益集中，容易達成共識，而社會大衆的利益高度分散，很難結盟。

改變美國政府決策的6 種力量:公共知識分子、新聞界、民調機掏、公益組織、國會和法院

"一個人做事情的動機，可以分爲三類:一是求生，二是社會生活，三是娛樂。當我們的動機上升到一個更高的階段時，我們纔會取得進步:不是僅僅爲了求生，更是爲了改變社會，更理想的是一一爲了興趣和快樂。"

軟件是由代碼和數據共同組成的開源指的只是開放代碼，並不包括數據。但當開放代碼已經成爲共識和現實的時候，新一代的創新者，自然又將眼光投向了數據。雖然同爲軟件的一部分，但開放數據(Open Data) 和開放代碼卻大不相同。開放代碼面向的對象僅僅是程序員，也就是說，它停留在技術的層面;但數據的開放，其涉及面卻廣得多，它不僅和技術人員相關，還與數據的來源、性質以及過去和未來的使用人員都息息相關。

公共數據開放的8 大基本原則
1 數據必須是完整的
2 數據必須是原始的
3 數據必須是及時的
4 數據必須是可讀取的
5 數據必須是機器可處理的
6 數據的獲取必須是無歧視的
7 數據格式必須是通用非專有的
8 數據必須是不需要許可證的
如果我們坐等他人，那改變就不會到來。我們自己一-就是我們一直在等的人，我們自己一-就是我們所要尋求的改變。

信息不對稱理論可以很好地解釋其中的原因。該理論指出，掌握信息多的人，在社會競爭中處於有利的地位，而信息貧乏的人，則處於不利的地位。前者可以通過向後者有償轉讓信息來獲取利益，無償出讓，則收穫"善意'只有信息自由流動，各方掌握相同的信息之後，彼此才能建立完全的信任。

萬維網是一個網頁的集合體。這些網頁，即使內容相似、主題相同，但由於分屬不同的網站、存儲在不同的服務器上，他們之間就沒有鏈接和聯繫，這意味着如果用戶想找到它們、分析它們，就必須藉助搜索引擎等工具。這也是谷歌之類的搜索公司爲什麼能成爲商業巨頭的根本原因:在現在的互聯網上，各種信息之間是孤立的，我們要對它們進行整合、分析，就必須依靠人工的外力，目前最好的工具就是搜索引擎。

。一句話，基於數據的分析和競爭已經是零售業的常態，毫不誇張地說，零售業的競爭一定程度上已經成爲一種基於數據的競爭，數據就是企業的財富和金礦，數據分析和挖掘的能力就是企業的核心競爭力。

零售業的這種狀態，並不是企業界的特例。無論是橫向比較行業的數據總量，還是縱向考察數據分析方法的歷史淵源，零售業其實都坐不上數據競爭的"頭把交椅前排就座的還有金融、保險、投資等領域。但零售行業的這種競爭狀態證明，數據的爆炸將影響未來行業的競爭方式，未來的競爭將更加精細化，這種精細化，就體現在數據的收集和分析上。

今天已經看完了《大數據》，這本書是以數據爲軸線，描述了這個美國這個國家的政府，人民，社會對待數據的態度，從美國的大選，到美國人爲了將數據公開，共享付出的艱辛的努力。並且預示着未來人們必須處理好數據，如何收集數據，處理數據，分享數據。數據在人們的生活中的重要作用，並且由於無線傳感網的建立，以後的數據會越來越多，人們如何處理使用這麼龐大的數據？

sm4加密工具類

爲什麼選擇這種技術而不選擇另一種技術？

結構之美：單鏈表的初始化、創建與遍歷

華爲機試題練習總結

計算機網絡----數據鏈路層（三）

數學傳奇

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結