原创 [R]聚類算法:k-means模組

延伸<[Excel]k-means聚類算法的應用,以評價現有供應商的水平為例。>文章,同時恰巧在圖書館看到一本R語言機器學習書籍,因此正好可進一步瞭解如何用R語言來實現k-means算法和應用,一併將k-means模組建立起來,做為未來參

原创 [R]如何利用seed和sample指令,生成各類的隨機亂數?

在數值計算軟體的應用上,利用生成各類的隨機亂數是基本的功能。在R語言中,可利用seed和sample來生成各種類的隨機亂數,隨機亂數結果包含單個數值是否重複產生,亂數羣是否可固定以驗證數值模型,以及是否可依照比例產出隨機亂數。 利用以下範

原创 [Minitab]如何製作柏拉圖(Pareto chart)?

柏拉圖(Pareto Diagram),屬於QC常用工具之一。其將單一事件的眾多影響因子依照影響程度/發生頻率進行排列和累加比例,使得主要和次要影響因子可明顯被區分出來,因此又稱為排列圖法或主次因素分析法。一般而言,累加比例佔70%以上

原创 [旅遊趣]臺灣臺東森林公園

臺東森林公園的活水湖  在當地政府的保護政策下,臺灣臺東森林公園保有自然森林景觀和豐富的動植物生態環境,因此素有"黑森林"稱號。森林公園中共有三個湖泊,分別為活水湖、琵琶湖和鷺鷥湖,其中琵琶湖和鷺鷥湖具備原始生態鏈,不知名的魚種和白鷺鷥應

原创 [R]高級結構指令(lapply, sapply和apply)的用法

基本的程序語言都具備基本的控制結構指令,如if...else和for...loop,一般可做為操作向量數據的輔助工具。然而,當用於大數據的平行處理作業,切換為矩陣操作就顯得相當重要,R語言中的高級數據結構指令即具備平行處理大數據的功能。

原创 [Minitab]如何檢驗一組數據是否符合正態分佈?

進行參數估計和假設檢驗時,通常總是假定母體服從正態分佈,因此在實務上,我們可對數據先進行正態分佈檢驗的預處理工作。利用Minitab可快速檢驗該組數據是否符合正態分佈,操作步驟如下:   a.選擇Basic Statistics =>

原创 [Excel VBA]如何將工作表中的一個特定項目拆分成各個工作表?

延續<[Excel VBA]關於字典(dictionary)的應用,以如何分類資料為例。>文章,可進一步利用字典(dictionary)進行資料處理相關工作。 本文以將工作表中的一個特定項目拆分成各個工作表為範例,操作演示如本文封面圖,

原创 [Excel VBA]如何製作動態數據圖表?

  合適的數據視覺化(data visualization)不僅僅是簡報的好幫手,對於知識轉譯者,用於跨領域的說明也是一項好工具。市面上,數據視覺化的工具已相當齊全,包含考量使用者友善介面的套裝工具(例如:Tableau),或是依使用者

原创 [Excel VBA]關於字典(dictionary)的應用,以如何分類資料為例。

在Excel VBA中,字典(dictionary)是一個集合物件,基本的組成要素可以分為鍵(key)和項目(item),儲存數據類型包含文字、數字、日期、甚至是數組和物件等等。而字典的特徵為Key具備不可重複性,正因唯一性的特徵,使得

原创 [書籍]11堂極簡系統思維課

相較於相關領域的書籍,該本書的總頁數僅有92頁,的確達到"極簡"的境界。以系統思維領域的角度,該本書未利用正反饋迴路、負反饋迴路或增強迴路建構複雜的圖表,而僅僅利用文字搭配生活案例,是一本讓讀者易於窺探系統思維的入門書籍。   本書提及

原创 [R]如何建立線性回歸模型,並診斷模型的正確性?

在數理統計中,線性回歸是利用最小平方法將自變量和因變量數據之間的關係,以建立函數形式的分析方法。根據自變量的個數,一個自變量的關係稱為一元線性回歸,兩個以上的關係稱為多元線性回歸。在實務的相關工程應用也相當廣泛,如電烙鐵的輸入電功率與加熱

原创 [R]如何查詢安裝包(package)中的數據集(dataset)?

安裝包(package)之於R,就如同一棵樹的枝幹之於主幹。藉由安裝包的拓展,R語言的功能得已趨近於完整。 安裝包除了集成眾多函數之外,有時為了展示安裝包中的函數效果,會再自帶數據集。如應用於處理數據繪圖的lattice安裝包,就包含不少

原创 漢斯·羅斯林(Hans Rosling)告訴你,如何將數據轉變決策?

TED演講集:資本主義的困局 第25集 漢斯·羅斯林:近十年來的好消息?   漢斯·羅斯林 (Hans Rosling),是卡洛琳學院的國際衛生學教授,曾經擔任世界衛生組織、聯合國兒童基金會和其他援助機構的顧問,因此對於一些國際公共

原创 [Excel]k-means聚類算法的應用,以評價現有供應商的水平為例。

聚類算法系列中,k-means聚類算法是基礎,其屬於非監督式分類算法( Unsupervised Classification)。 所謂"非監督式",即是針對一堆未知標籤的數據集做分類,結果只會告知哪些數據屬於同一羣體。換句話說,只有一堆

原创 [Minitab]如何藉由試驗計劃分析,找出主要顯著因子?

延續<[Minitab]如何創建一個全因子試驗計劃表?>文章,當完成試驗計劃表的創建工作後,接著就是依照實際加工結果填具平面度數據,如圖一所示。 圖一  有了試驗計劃數據表後,接著就是試驗因子的分析工作,選擇DOE->Factorial-