2021年美國大學生數學建模競賽D題思路分析

下載鏈接

2021美賽題目下載:鏈接:https://pan.baidu.com/s/1yFdg3vBMS4MY7CnQ3PMG9Q
提取碼:6666

原文翻譯

  • 2021年國際商會
    問題D:音樂的影響
    音樂是人類社會的一部分,是文化遺產的重要組成部分。作爲理解音樂在人類集體經驗中所扮演角色的努力的一部分,我們被要求開發一種方法來量化音樂進化。當藝術家創作一首新音樂時,有許多因素可以影響他們,包括他們與生俱來的創造力、當前的社會或政治事件、獲得新的樂器或工具的機會或其他個人經歷。我們的目標是瞭解和衡量以前製作的音樂對新音樂和音樂藝術家的影響。一些藝術家可以列出十幾個或更多的其他藝術家,他們說他們影響了他們自己的音樂作品。還有人建議,影響可以用歌曲特徵之間的相似程度來衡量,如結構、節奏或歌詞。音樂有時會發生革命性的變化,提供新的聲音或節奏,例如當一個新的體裁出現時,或者有一個現有的體裁的重新發明(例如。古典、流行/搖滾、爵士樂等。)。這可能是由於一系列微小的變化,藝術家的合作努力,一系列有影響力的藝術家,或社會內部的轉變。許多歌曲有着相似的聲音,許多藝術家爲音樂流派的重大轉變做出了貢獻。有時這些變化是由於一個藝術家影響另一個藝術家。有時,它是針對外部事件(如重大世界事件或技術進步)而出現的變化)。通過考慮歌曲網絡及其音樂特徵,我們可以開始捕捉音樂藝術家對彼此的影響。也許,我們還可以更好地瞭解音樂是如何隨着時間的推移在社會中演變的。您的團隊已經被整合集體音樂(ICM)協會確定,以開發一個衡量音樂影響的模型。這個問題要求你研究藝術家和流派的進化和革命趨勢。爲了做到這一點,ICM給了您的團隊幾個數據集:

    1. “influence_data”1 代表音樂影響者和追隨者,如藝術家自己報告的,以及行業專家的意見。這些數據包含了過去90年來5,854名藝術家的影響者和追隨者。
    2. “full_music_data”2 提供16個可變的條目,包括音樂特徵,如舞蹈性,節奏,響度和鍵,以及98,340首歌曲的artist_name和artist_id。這些數據用於創建兩個彙總數據集,包括:
      a. 藝術家“data_by_artist”的平均價值”,
      b. 意味着多年的“data_by_year”。
      1 這些數據來自All Music.com
      2 這些數據是從Spotify的API中獲得的
      注意:這些文件中提供的數據是較大數據集的子集。這些文件包含了你要爲這個問題使用的唯一數據。
      爲了實施這個具有挑戰性的項目,ICM協會要求您的團隊通過音樂藝術家隨時間的影響來探索音樂的演變,具體做法如下:





  • 使用influence_data數據集或其部分創建一個(多個)有向網絡的音樂影響,其中影響者連接到追隨者。開發在這個網絡中捕獲“音樂影響”的參數。通過創建你的定向影響者網絡的子網來探索音樂影響的子集。描述這個子網。你的“音樂影響”措施在這個子網中揭示了什麼?

  • 使用full_music_data和/或兩個彙總數據集(與藝術家和年份)的音樂特徵,以制定音樂相似性的度量。用你的衡量標準,流派中的藝術家是否比流派之間的藝術家更相似?

  • 比較體裁之間和體裁內部的相似性和影響。一個體裁的區別是什麼,體裁是如何隨着時間的推移而變化的? 有些體裁與其他體裁有關嗎?

  • 指出data_influence數據集中報告的相似性數據是否表明已識別的影響者實際上影響了各自的藝術家。“影響者”真的會影響追隨者創造的音樂嗎? 有些音樂特徵是否比其他音樂更具有“傳染性”,或者它們在影響特定藝術家的音樂方面都有類似的作用?

  • 從這些數據中確定是否有可能意味着音樂進化的革命(重大飛躍)的特徵? 什麼藝術家代表革命者(重大變革的影響者)在你的網絡?

  • 分析音樂演變的影響過程,隨着時間的推移,在一個體裁。你的團隊能找出揭示動態影響者的指標,並解釋流派或藝術家是如何隨着時間的推移而變化的嗎?

  • 你的作品如何在時間或環境中表達關於音樂文化影響的信息? 或者,如何在網絡中識別社會、政治或技術變革(如互聯網)的影響?
    寫一份一頁的文件給ICM協會,關於使用你的方法來理解音樂通過網絡的影響的價值。考慮到這兩個問題數據集僅限於某些類型,然後是兩個數據集共同的藝術家,您的工作或解決方案將如何隨着更多或更豐富的數據而變化? 建議進一步研究音樂及其對文化的影響。來自音樂、歷史、社會科學、技術和數學領域的跨學科和多樣化的ICM協會期待着您的最後報告。
    您的PDF解決方案不超過25頁,應包括:

  • 一頁彙總表。

  • 目錄。

  • 你的解決方案。

  • 提交ICM協會的一頁文件。

  • 參考資料清單。
    注:2021年新 ICM競賽現在有25頁的限制。您提交的所有方面都按25頁的限制計算:摘要表、目錄`解決方案主體、圖像和表格、一頁文檔、參考列表和任何附錄。
    附件
    我們爲這個問題提供了以下四個數據文件。提供的數據文件包含您應該用於此問題的唯一數據


    1. influence_data.csv

    2. full_music_data.csv

    3. data_by_artist.csv

    4. data_by_year.c
      sv數據描述

    5. influence_data.csv
      (數據以utf-8編碼,以便處理特殊字符):

      • influencer_id:給被列爲影響者的唯一識別號碼。(一串數字)
      • influencer_name:由追隨者或行業專家給出的影響藝術家的名字。(字符串)
      • influencer_main_genre:最能描述影響藝術家創作的大部分音樂的體裁。(如果可
        用)(字符串)
      • influencer_active_start:影響藝術家開始音樂生涯的十年。(整數)
      • follower_id:給被列爲跟隨者的藝術家的唯一識別號碼。(一串數字)
      • follower_name:跟隨影響藝術家的藝術家的名字。(字符串)
      • follower_main_genre:最能描述以下藝術家創作的大部分音樂的體裁。(如果可
        用)(字符串)
      • follower_active_start:以下藝術家開始音樂生涯的十年。(整數)
    6. full_music_data.csv 3. data_by_artist.csv 4. data_by_year.csv
      Spotify音頻功能來自“full_music_data”、“data_by_artist”、“data_by_year”:

      • artist_name:表演曲目的藝術家。(數組)
      • artist_id:influence_data.csv文件中給出的相同唯一標識號。(一串數字)音樂的特點:
      • 舞蹈性:一種基於音樂元素的組合,包括節奏、節奏穩定性、節拍強度和整體規律性,來衡量一個曲目是否適合跳舞。值0.0是最不可跳舞的,1.0是最可跳舞的。(浮動)
      • 能量:表示對強度和活動的感知的度量。值0.0是最不強烈/能量的,1.0是最強烈/能量的。通常,充滿活力的軌道會感覺快速、響亮和嘈雜。例如,死亡金屬有很高的能量,而巴赫的前奏在量表上得分很低。這一屬性的感知特徵包括動態範圍、感知響度、音色、起跳率和一般熵。(浮動)
      • 價態:一種描述曲目所傳達的音樂積極性的度量。值0.0最負,1.0最正。高價音的軌道更積極(例如。快樂,開朗,興高采烈),而低價音軌聽起來更消極(例如。悲傷,沮喪,憤怒)。(浮動)
      • 節奏:以每分鐘節拍爲單位的軌道的總體估計節奏(BPM)。在音樂術語中,節奏是給定作品的速度或節奏,直接來源於平均節拍持續時間。(浮動)
      • 響度:軌道的整體響度,單位爲分貝(dB)。值在-60到0db之間的典型範圍。響度值在整個軌道上是平均的,對於比較軌道的相對響度是有用的。聲音是聲音的質量,是身體力量(振幅)的主要心理關聯)。(浮動)
      • 模式:一種軌跡的情態(主要或次要)的指示,它的旋律內容是從其尺度的類型。主修用1表示,輔修用0表示。
      • 關鍵:估計軌道的總體關鍵。整數映射到點,使用標準的Pitch類表示法。E.g。0=C,1=C♯/D♭,2=D等等。如果沒有檢測到鍵,則鍵的值爲-1。(整數)唱腔類型:
      • 聲學:衡量軌道是否聲學(沒有技術增強或電氣放大)的置信度)。值1.0表示高度置信,軌道是聲學的。(浮動)
      • 工具性:預測一個曲目是否包含沒有聲音。在這種情況下,“嗚”和“啊”的聲音被視爲工具。說唱或口語曲目顯然是“聲樂”。器樂值越接近1.0,曲目不包含聲樂內容的可能性就越大。高於0.5的值意在表示工具軌道,但隨着值接近1.0,置信度更高。(浮動)
      • 活力:在賽道上檢測觀衆的存在。較高的活性值表示軌道被實時執行的概率增加。高於0.8的值提供了軌道運行的強烈可能性。(浮動)
      • 言語:在一個軌道上檢測口語的存在。更純粹的演講就像錄音(例如。脫口秀,有聲書,詩歌),屬性值越接近1.0。高於0.66的值描述了可能完全由口語構成的音軌。值在0.33到0.66之間,描述可能包含音樂和語音的曲目,無論是在部分還是分層,包括說唱音樂。低於0.33的值最有可能代表音樂和其他非語音類曲目。(浮動)
      • 顯式:檢測曲目中的顯式歌詞(真(1)=是的;假(0)=不,它沒有或未知)。(布爾值)
        說明:
      • duration_ms:軌道的持續時間(毫秒。(整數)
      • 流行:賽道的流行。值將在0到100之間,其中100是最受歡迎的。流行度是通過算法來計算的,在很大程度上是基於賽道上的總播放次數和最近的播放次數。一般來說,現在播放頻率更高的歌曲將比過去播放頻率更高的歌曲更受歡迎。重複軌道(例如。同一曲目來自單一和專輯)是獨立的。藝術家和專輯的流行在數學上來源於曲目的流行。(整數)
      • 年份:軌道發佈的年份。(1921年至2020年爲整數)
      • release_date:軌道發佈的日曆日期大多采用yyyy-mm-dd格式,但日期的精度可能會有所不同,有些只是作爲yyyy給出的。
      • song_title(審查):軌道的名稱。運行軟件是爲了刪除歌曲標題中任何潛在的顯式單詞。
      • 計數:特定藝術家的歌曲數量表示在full_music_data.csv文件中。(整數)

思路分析

D題理解
問題中心:音樂的影響
題目要求:
(1)根據附件數據influence_data,構建音樂人之間的定向網絡模型,或許會根據不同的音樂派別劃分成多個子圖,進而做出描述性分析與可視化;構建影響力指標表示音樂人的影響程度,可以參考複雜網絡、聚類思想中的有向加權度指標。
(2)根據附件數據full_music_data 探討不同流派音樂內部的相似性,可以參考聚類有效性評價指標DB、DUNN等,關鍵問題是需要我們構建相似性指標。
(3)分析不同類別音樂人或音樂之間的類內相似性差異,這些差異隨時間是如何變化的,不同類別的音樂人或派系之間是否存在交互(文化背景等因素所導致)。
(4)分析不同派系的音樂中,影響者到連接者之間的影響力(Q1指標)是否存在明顯差異或共性,如7種音樂特性與5種人聲特徵之間的規律。
(5)從數據中找出重大變革時間點,確定這些時間點的歷史背景,確定主要的特徵以更有效地表示這些飛躍,找出相關巨大貢獻的藝術家。
(6)分析不同類型音樂隨時間變化的影響過程(內部音樂人互相影響、外部不同派系音樂之間的影響)。提出綜合指標來表示這種影響隨時間的變化模式。
(7)該小問較難,一種可行的建議是從音樂人的作品數據(歌曲名、歌詞等)中提取文本信息,獲取主題詞彙來表示時間、環境特徵。
(8)模型推廣。進一步研究模型的運行模式,以適用於更豐富的音樂數據集等。
這道題交叉性強,發揮空間大,工作量重,但並不難理解,適合有初步編程基礎的同學下手。










詳細思路

音樂從一開始就是人類社會的一部分,是文化遺產的重要組成部分。爲了理解音樂在人類集
體經驗中所扮演的角色,我們被要求開發一種量化音樂進化的方法。當藝術家創作一段新的音樂時,有許多因素會影響他們,包括他們天生的創造力,當前的社會或政治事件,使用新樂器或工具,或其他個人經歷。我們的目標是瞭解和衡量之前製作的音樂對新音樂和音樂藝術家的影響。
分析:題目中明確指出需要量化音樂,影響因素給出了天生的創造力,當前的社會或政治事件,使用新樂器或工具,或其他個人經歷。在建模時,除給出的因素外,應當考慮其他因素,比如共用幾種樂器,音樂人的年齡,音樂人的社會地位和在領域內的地位,藝術家所屬領域的熱門程度等。
目標是衡量之前製作的音樂對新音樂和音樂藝術家的影響,這裏的之前製作的音樂是某藝術家之前製作的還是歷史所有的音樂暫未表明,所以可能需要大家選擇其中一個角度去建模,注意目標
是量化對新音樂、音樂藝術家(兩個目標,兩個模型)的影響。
一些藝術家可以列出十幾個甚至更多的其他藝術家,他們說他們影響了自己的音樂作品。
也有人認爲,影響可以通過歌曲特徵(如結構、節奏或歌詞)之間的相似程度來衡量。有時音
樂也會發生革命性的轉變,提供新的聲音或節奏,例如當一種新的流派出現,或現有流派的
重新發明(如古典、流行/搖滾、爵士等)。這可能是由於一系列的小變化,藝術家的合作努力,一系列有影響力的藝術家,或社會內部的轉變。
分析:這段話的信息量非常大。首先藝術家之間的影響可以用人物關係圖或知識圖譜(較難)
來分析,其中的相似程度可以利用相關分析,熱力圖來量化和展示。歌曲特徵除了提到的結構、節奏或歌詞(在問題分析中會詳細說明如何量化),還可以添加一些自己想到的特徵。
對於後半段話,題目可能會問革命性轉變的出現條件和概率,往往新的流派會較難出現,而重新發明會隨着藝術家和相關作品的增加而提高出現概率。
許多歌曲都有相似的聲音,許多藝術家爲音樂流派的重大轉變做出了貢獻。有時這些變化
是由於一個藝術家影響另一個藝術家。有時是對外部事件(如世界重大事件或技術進步)的反應而產生的變化。通過考慮歌曲網絡及其音樂特徵,我們可以開始捕捉音樂藝術家對彼此的影響。也許,我們也可以更好地瞭解音樂是如何隨着社會的變遷而演變的。
分析:背景說到音樂流派的重大轉變是由於一個藝術家影響另一個藝術家或者外部事件(如世界重大事件或技術進步)的反應而產生的變化,這個是後面的模型建立需要的。後半段表示,題目可能會問到如何通過考慮歌曲網絡及其音樂特徵去量化音樂藝術家對彼此的影響,音樂是如何隨着社會的變遷而演變的。你的團隊已經被綜合集體音樂(ICM)協會確定爲一個衡量音樂影響力的模型。這個問題要求你審視藝術家和流派的進化和革命趨勢。爲了完成這個具有挑戰性的項目,ICM 協會要求您的團隊通過以下方式來探索音樂的演變,通過對音樂藝術家的影響來進行研究:
(1)使用 Influence_Data 數據集或其中的一部分創建音樂影響力的(多個)定向網絡,其
中影響者連接到追隨者。開發參數來捕捉這個網絡中的‘music influence’。通過創建定向影
響 者網絡的子網絡來探索音樂影響力的子集。 描述此子網。 在這個子網絡中, 你的‘music
influence’指標揭示了什麼?
分析:influence 的數據集分析見文末的 附1 數據集分析,這裏僅闡述解題思路。(後面的問題類同)
此題僅需要influence 數據集即可,如果有能力可以在這裏建立一個知識圖譜。實際此題的目
的是爲了確定藝術家的音樂影響力,而建立所需要的定向網絡就是讓influence 中的影響者藝
術家和追隨者藝術家之間產生映射聯繫。
我給出的方法是首先添加數據列音樂領域始祖,也就是對所有數據進行溯源,如果追隨者和影響者的領域相同,找出影響者是追隨哪個影響者的,這個需要代碼實現。添加數據列影響人數,對於某一確定的影響者,找到被此影響者直接或間接影響的人數。做出領域人數表,計算出領域內的藝術家大師共有多少人。在相同領域,可以根據不同年份做可視化(折線圖最好),觀察並得出不同領域的巔峯年份(新生代人才最多的)。這時,子網絡參數就算建立好了。然後建立misic influence 模型,可以建立綜合評價模型(有很多,選擇其一),這裏選用灰色綜合評價法,指標爲此藝術家的影響人數,所在領域人數,所在領域年份人數,所在領域年份影響力排名(計算方法爲:先篩選出藝術家所在領域此年份的所有人,然後根據影響人數進行排名),所在年份競爭力(這一年份的所有領域的藝術家總人數)。(對於模型的求解過程,在論文中以一個領域的一個年份進行展示即可)
(2)使用 FULL_MUSIC_DATA 或音樂特徵的兩個彙總數據集(具有藝術家和年份)來開發
音樂相似性度量模型。用你的衡量標準,流派內的藝術家比流派間的藝術家更相似嗎?
分析:這裏選用 FULL_MUSIC_DATA 數據集和第一問用到的數據集進行分析。題目的要求是開發音樂相似性度量模型,並判斷是否流派內的藝術家比流派間的藝術家更相似。
由於指標很多,可以利用兩種方法進行處理。1 可以利用相關分析探究各指標與受歡迎程度之間的相關關係,將相關性低的幾個指標剔除。 2 可以利用主成分分析對數據進行降維
對於音樂相似性度量模型,需要用到FULL_MUSIC_DATA 數據集,關於如何處理數據集在文末附1。音樂相似性主要指的是兩個音樂之間的相似程度,再對數據集進行數據清洗之後,可以用代碼計算出音樂間的相似程度,常用皮爾遜相關係數和餘弦相似度,可以看看下面的博客https://blog.csdn.net/weixin_39050022/article/details/80732249
除此之外,可以對其進行可視化,畫出相關關係熱力圖,可以直觀反映音樂間的相似性(挑6-10 個左右的歌曲即可,在論文中進行展示)
針對後一問,根據藝術家所屬流派,對於藝術家進行聚類分析(DBSCAN 或者kmeans)查看流派內的藝術家與流派見的藝術家的相關關係,聚類分析展示出的圖(不同流派用不同顏色的點)可以直觀反映流派間與流派內的關係。
(3)比較流派之間和流派內部的相似之處和影響。流派的區別是什麼?流派是如何隨着時
間的推移而􀀀變化的?有些流派與其他流派有關聯嗎?
分析:進一步對第二問的結果進行數據挖掘,這一問前半問很簡單,除了前一問的結果外,查閱一點文獻,加上一些數據分析就可以了。
對於流派是如何隨着時 間的推移而變化的,可以針對某一流派進行闡述,第一問介紹了時間推移此領域的新生代人數,除此之外也可以看這一領域此年份的發歌量,可以做折線圖來看一個流派的興衰。然後根據一些重要的時間節點,比如拐點或者增長率很高或很低的節點,查看FULL_MUSIC_DATA 數據集中對應的時間內,此領域或者樂壇發生了什麼變化,是否有很著名的歌曲,或者由於別的領域火熱,導致此領域人數,歌曲變少了。這裏可以自行發揮,語文建模大家都很擅長haha,針對有些流派與其他流派是否有關聯,可以看同一藝術家是否在不同流派發表了歌曲,或者不
同藝術家之間的影響關係(Influence_Data 數據集)。
(4)說明 DATA_influence 數據集中報告的相似性數據是否表明識別出的影響者實際上影
響了各自的藝術家。“有影響力的人”真的會影響追隨者創作的音樂嗎?是某些音樂特徵比其
他特徵更具“感染力”,還是它們在影響某個特定藝術家的音樂方面都扮演着相似的角色?
分析:對於前半問,“有影響力的人”真的會影響追隨者創作的音樂嗎?答案是肯定的,因爲
後半問在問前半問肯定回答後的結論。
前半問需要大家發動自己的智慧,只要扯上關係證明真的會影響即可。對於後半問,可以針對性地做驗證分析。某些音樂特徵比其他特徵更具“感染力”,可以參考前文說的相關性分析,也就是在FULL_MUSIC_DATA 數據集中利用相關分析探究各指標與受歡迎程度之間的相關關係,相關性更高,表示更有感染力。它們在影響某個特定藝術家的音樂方面都扮演着相似的角色,這個可以對一個有名的藝術家進行探討,針對不同的指標,查看影響者與被影響者之間指標的相似程度,可以搞一個對比圖、南丁格爾玫瑰圖或者雷達圖(後兩個更好一點,在進階思路中給出畫的軟件和方法),最後進行數據分析。
(5)從這些數據中找出音樂演進過程中是否有可能革命性(重大飛躍)的特徵?在您的網絡
中,哪些藝術家代表變革者(重大變革的影響者)?
分析:這個在前面的分析中說到了,就是觀察折線圖的拐點或者增長率很高或很低的節點,然後針對這一節點,分析爲什麼會出現這樣的情況,將這一時期的藝術家和作品都列出來,查看作品的各個指標有什麼比較突出的特點(突出不突出,就和所有作品的平均值做對比,與平均值差距很大則代表很突出),這樣的特點就是題目中描述的革命性(重大飛躍)的特徵
對於後半問就需要大家根據已有的結論自己尋找了,有了前面的基礎(第一問的影響力不要忘了),這個很簡單。對於這道題的結果可以以表格的形式呈現,可以看看突出顯示錶,畫出來效果很好看。
(6)分析一種流派中隨着時間發生的音樂演變的影響過程。您的團隊能否確定能夠揭示動
態影響者的指標,並解釋流派或藝術家如何隨着時間的推移而􀀀變化?
分析:這道題需要根據前面自己的結論得出答案,這裏提示幾點:1 每一個流派都有自己很突出的幾個指標,將這幾個指標找出來。 2 動態影響者的指標一定是更突出的,可以將歡迎程度作爲重要指標。 3 對於單個藝術家,可以看看根據歷史推移,做了哪些改變,歌曲的指標發生了什麼變化。 4 語文建模題,加油!
(7)你的工作如何表達音樂在時間或環境中對文化的影響?或者,如何在網絡中識別社會、政治或技術變化(如互聯網)的影響?
分析:此問的目標是,如何在網絡中識別音樂對社會、 政治或技術變化(如互聯網)的影響。這一問可以參考大量文獻和新聞,語文建模題。
這裏提供一些我的想法,對於社會和政治而言,在和平穩定的年代與戰爭年代的歌曲特徵是不一樣的,冷戰、二戰、工業革命、互聯網的高速發展可能對音樂有很大的影響,同樣音樂也對這些歷史事件有所影響。互聯網的出現影響了音樂播放的形式,特別是現在的電子音樂對於以前的傳統媒介,比如唱片機等影響很大,科學技術的發展可能也會導致人們對於音樂領域的愛好有所差異。向ICM 協會寫一份一頁紙的文件,說明使用你的方法通過網絡瞭解音樂影響的價值。考慮到這兩個問題數據集僅侷限於某些類型,隨後又侷限於這兩個數據集所共有的藝術家,你的工作或解決方案將如何隨着更多或更豐富的數據而改變?建議進一步研究音樂及其對文化的影響。
ICM 協會,一個來自音樂,歷史,社會科學,技術和數學領域的跨學科和多樣化的團體,
期待你的最終報告。
寫信這個是美賽的絕活,大家總結一下論文就好,內容在1-2 頁都可以。注意信的格式,
還有就是信可以在目錄後寫,也可以在附錄前寫,可以參考以前的o獎論文。
不超過25 頁的PDF 解決方案應該包括:•一頁摘要表。
•目錄。
•您的完整解決方案。
•給ICM 協會的一頁文件。
•引用列表。
問題分析的重要修正:在一開始我是從題目開始看,用到什麼數據集就去看看數據集,導致兩個數據集沒有看到。從第三問開始,大家根據那兩個數據集可以減少一些我思路的難度,不過大體方向我的思路是沒問題的,後幾問我寫了需要算的東西,其實在那兩個數據集裏面會有。
附1 附1 數據集分析
數據集來源:
1 代表音樂領域的影響者和追隨者,這不僅來自藝人自己的報道,也來自行業專家的觀點。
這些數據包含了過去90 年裏5854 位藝術家的影響者和追隨者。
2“full_music_data”2 爲98,340 首歌曲提供16 個變量條目,包括舞蹈性、節奏、響
度和鍵等音樂功能,以及每種歌曲的artist_name和artist_id。這些數據用於創建兩個
彙總數據集,包括:
a.藝術家“data_by_artist”的平均值,
b.表示年份“data_by_year”。
1 這些數據是從AllMusic.com上搜集來的
2 這些數據來自Spotify的API
注意:這些文件中提供的數據是更大數據集的子集。這些文件包含您應該用於解決這個
問題的唯一數據。
分析:這段話表明不可以另外找數據,必須得用美賽提供的D題數據,下面對每個
數據集進行分析。
influence_data.csv
數據集的指標分析:
influencer_id:影響者藝術家的標識號。部分可能是字符串數據類型,應全改爲整數類型後再對數據集進行
後續處理。
influencer_name:影響者藝術家的姓名。一個id對應一個姓名
influencer_main_genre: 影響者藝術家的音樂流派。
influencer_active_start: 影響者藝術家開始音樂生涯的年份。
follower_id: 追隨者藝術家的標識號。部分可能是字符串數據類型,應全改爲整數類型後再對數據集進行後續處理。
follower_name:追隨者藝術家的名字。
follower_main_genre: 追隨者藝術家的音樂流派。
follower_active_start: 追隨者藝術家音樂生涯的年份。
數據集的數據預處理:
首先剔除有空值的數據,這些數據是不完整的,不利於數據分析與建模。對於id和姓名
不對應的數據也應剔除,是異常數據。對於影響者開始音樂生涯的年份晚於追隨者藝術家
音樂生涯的年份的數據也要剔除,是異常數據。
2. full_music_data.csv
數據集的指標分析:
artist_names:藝術家的姓名
artists_id:藝術家的標識號
danceability:衡量此音樂是否適合跳舞的指標。0 最不適合跳舞,1爲最適合跳舞
energy:一種表示對強度和活動性的感知的量度。值爲 0.0 表示最不充滿活力,值爲 1.0 表示最強烈/充滿
活力。通常,充滿活力的曲目給人的感覺是快速、響亮和嘈雜。例如,死 亡金屬的能量很高,而巴赫的前
奏曲在音階上得分很低。影響這一屬性的感知特徵包括動態 範圍、感知響度、音色、起始率和總熵。
Valence:描述一首曲目所傳達的音樂積極程度的一種衡量標準。值 0.0 表示最負,值 1.0 表 示最正。高
價的曲目聽起來更積極(如高興、歡快、歡快),而低價的曲目聽起來更消極(如悲 傷、沮喪、憤怒)。
tempo: 曲目的總體估計速度,以每分鐘節拍(BPM)爲單位。在音樂術語中,節奏是給定樂曲 的速度或節奏,
直接從平均拍子時長得出。
loudness: 音軌的整體響度,以分貝(DB)爲單位。值的典型範圍在-60 到 0 db 之間。響度值 是整個音軌的
平均值,對於比較音軌的相對響度很有用。響度是聲音的性質,它是物理強度 (振幅)的主要關聯。
mode: 曲目的模態(大調或小調)、旋律內容來源的音階類型的指示。主要由 1 表示,次要爲 0。 key:估計
的音軌的整體數值。 爲使用標準音調等級記法映射到音調的整數。 例如, 0=C, 1=C♯/D♭,2=D,依此
類推。如果未檢測到 key 值,則的值設定爲-1。
acousticness: 音軌是否是聲學的置信度測量(沒有技術增強或電子放大)。值 1.0 表示音軌的 可信度很高。
instrumentalness: 預測曲目是否不包含人聲。在這種情況下,“噢”和“啊”的聲音被視爲器樂。 說唱或有聲歌曲顯然是“有聲的”。器樂度值越接近 1.0,曲目中不包含聲音內容的可能性就 越大。高於 0.5 的值用於表示樂器音軌,但隨着該值接近 1.0,置信度會更高。
liveness: 檢測曲目中是否有觀衆。活躍度值越高,表示實時執行曲目的概率越高。如果值 大於 0.8,則表示音軌處於活動狀態的可能性很大。
speechiness:檢測音軌中是否存在口語單詞。越是專門的演講——比如錄音(例如脫口秀、有 聲讀物、詩歌),屬性值越接近 1.0。大於 0.66 的值描述可能完全由口語單詞組成的曲目。 介於 0.33 和 0.66 之間的值描述可能同時包含音樂和語音的曲目(分段或分層),包括說唱音 樂等情況。低於 0.33 的值很可能表示音樂和其他非語音軌道。
explicit:檢測曲目中的顯式歌詞(TRUE(1)=是,是;FALSE(0)=否,不是或未知)。
duration_ms: 音軌的持續時間,以毫秒爲單位。
popularity:這條音軌的受歡迎程度。該值將介於 0 和 100 之間,其中 100 是最受歡迎的。 人氣是通過算法計算的,並且在很大程度上是基於曲目已經播放的總次數和這些播放的最近 程度。一般來說,現在播放 頻率較高的歌曲會比過去播放頻率較高的歌曲更受歡迎。 重複的曲目(例如,來自單曲和專輯的相同曲目)是獨立評級的。藝術家和專輯的受歡迎程度 是從曲目受歡迎程度定量推導出來的。
year: 發行曲目的年份。(1921 年至 2020 年的整數)
release_date: 發行曲目的日期大多采用 yyyy-mm-dd 的格式,但是日期的精度可能會有所不 同,有些只是以 yyyy 給出。
song_title (censored): 曲目的名稱。(字符串) 歌曲標題中任何潛在的明確單詞已經被程序刪 除。
count:特定藝術家的歌曲數量在 full_music_data.csv 文件中表示。 數據預處理及數據分析
可以看到這個數據集的指標還蠻多的,裏面有字符串、整型、布爾型、浮點型等,爲了第
二問量化模型,需要對這些數據進行統一處理。
首先,爲了統一標準,將整形,布爾型統一變爲0 到1 之間的浮點型,其中對於不是0
到1 的數據,需要用到數據的標準化將數據映射到0-1 之間,標準化不僅可以有利於模
型的建立,而且可以消除量綱對數據的影響。
對於發行日期,由於release_date列有的是年份,有的是年月日,所以在數據分析時將
此列剔除,保留year 列。
對於song title,可以添加歌名單詞數這列,將其作爲影響指標之一。






























































































































發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章