資源 | 沒有數學和編程基礎,這幾個數據科學項目瞭解一下

大數據文摘出品

編譯:蔣寶尚

今天,文摘菌給大家介紹幾個比較有特色的數據科學模塊,這些模塊原本是一些教師用來進行教學使用,幫助學生有機會使用與其課程相關的數據集,並指導學生進行數據分析以及幫助理解統計和計算機原理。

一起來看~

模塊合集鏈接:

https://ds-modules.github.io/DS-Modules/

Introduction to Phonetics and Phonolog

這個模塊由兩個實驗組成,實驗所用到的數據都是學生自己收集的,並且在這個模塊中,學生獨立分析數據並編碼。在第一個實驗室裏,學生們研究聲音開始以及結束的時間,以及母語口語和身高之間的相關性。在第二個實驗中,學生分析元音發音,並將研究個體相互比較,從而揭示單個元數據對特徵預測能力的影響。該模塊適用於沒有編碼或統計經驗的學生。

Neighborhood Mapping

本模塊讓學生分析並可視化整個東灣人口普查區的社會經濟和人口變化情況。學生們到社區進行定性觀察,然後與人口普查數據進行比較。把一些的觀察結果組合成一幅地圖。該模塊適用於沒有編碼或統計經驗的學生。

Macroeconomics

這個模塊包含一些宏觀經濟學問題集。 第一個notebook幫助學生使用Latex公式以及教他們如何插圖。 第一個notebook的建模部分可視化了索洛增長模型。該模塊還使用自動評分功能可以及時反饋學生提交的作業。同樣,該模塊也適用於沒有編碼或統計經驗的學生

Chinatown and Culture of Exclusion

使用20世紀-21世紀的人口統計數據,讓學生分析一個特定的唐人街隨着時間的推移是如何變化的。在實驗過程中,學生可以使用一些簡單的文本分析方法做相關研究。

Implicit Bias and Social Outcomes

本模塊向學生介紹相關和迴歸分析。學生從一個關於健康結果的數據集和一組關於內隱偏見的數據集中挑選出整個美國的縣級數據集。然後,他們將這兩個數據集合並,並計算相關性和進行迴歸預測,從而確定偏見與健康結果之間是否存在相關性。

Moral Foundations Theory

這些模塊將政治演講中的詞彙使用與道德基礎理論聯繫起來。這些數據的統計推斷和可視化幫助學生尋找保守派和自由派總統候選人之間的修辭差異。然後,學生們將數據驅動的方法作爲修辭工具進行研究和批判。

Sumerian Text Analysis

本模塊使用一個有趣的數據集,即蘇美爾文學電子文本語料庫(ETCSL)。這些文本是從六千年前的資料中翻譯出來的。在本模塊中使用的技術在文本分析中不太常見,如k均值、分層聚類和多維縮放。

Data, Prediction, and Law

利用2016年美國總統競選演講的數據,學生從語音文本中挖掘特徵,可視化這些特徵,並用主成分分析提取特徵。該模塊最後給出了一個三維特徵圖的例子,此模塊需要學生有一些統計學知識。

最後,在次給出項目合集:

https://ds-modules.github.io/DS-Modules/

【今日機器學習概念】

Have a Great Definition

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章