2020美賽C題解題思路(A Wealth of Data)

  • 文前推廣

《計算機保研經歷分享》
—— 大學期間參加了有含金量的比賽,該如何利用自身的優勢保研、考研或求職?或者僅僅就是爲了做一份好看的簡歷“以備不時之需”?
—— 關注我的文章,我會後期開始更新文章,以保研經歷爲切入口,分析“如何放大自身優勢”,實現目標!
https://blog.csdn.net/qq_42037420/article/details/104353307

《數學建模想獲獎?國賽、美賽看這一個就夠了》
—— 數學建模的進階指南!內容全面、門類齊全,包含組隊、日常訓練、算法(含MATLAB代碼)、建模、寫作和“高校內部培訓資源”等諸多方面的指導!千載難逢、不容錯過!
—— 有條件的朋友們支持一下,謝謝!
需要“數學建模國賽美賽資源包”的關注公衆號“貓和真人”,回覆“1”即可獲得資源包,有條件的支持一下哈!


  • 正文

本文可能用到的網站鏈接:
https://ourworldindata.org/plastic-pollution

Problem C: A Wealth of Data

亞馬遜在網購平臺提供了兩種功能:評級/星級(rate)、評估/評論(review)。個人評級稱爲“產品星級評估(star rating)”,也就是客戶買完產品後的評價,由1星到5星;另外,購買產品的客戶還能評論,表達自己的意見和信息。而其他客戶還可以對這些評論進行評級,稱爲“幫助性評級/評論星級評級(helpfulness rating)”。公司用這些數據去了解市場、瞭解市場參與時機、對產品的設計改造等。

陽光公司打算在網上市場推出“吹風機”、“嬰兒奶嘴”、“微波爐”三款產品。他們希望得到以往客戶對同類競爭產品的評價,例如:關鍵模式(數據庫領域術語,可以理解爲這些產品邏輯層面上的結構)、關係、度量/評估/判定(可以理解爲“評價”一類的意思)、各類參數(原文:key patterns, relationships, measures, and parameters)。PS:翻譯或有不妥,請指正。以便爲他們做兩件事:(1)確定在線銷售策略,(2)分析產品的關鍵設計特徵,以提高產品的競爭力。

該公司曾用過數據來指導銷售,但未用過如此特殊的數據組合,所以他們對其中的“基於時間的模式(time-based patterns)”很感興趣,也希望知道這種方法能否幫助他們成功塑造產品的可交互性。

亞馬遜已在附件中爲您提供了相應三款產品(奶嘴、吹風機、微波爐)的往期數據,其中包括客戶信息、評級信息、評論等有用的信息。

問題1:用數學的方法,對上述三款產品數據集進行分析。主要是根據“產品星級評估”、“評論”、“評論星級評級”,對“定量/定性模式(quantitative and/or qualitative patterns)”、“關係”、“度量/評價”、“各類參數”進行分析,來幫助公司。

三款產品往期數據標籤:

marketplace customer_id review_id product_id product_parent product_title product_category star_rating helpful_votes total_votes vine verified_purchase review_headline review_body review_date
市場所在地 客戶ID 評論ID 產品ID 產品父項 產品名稱 產品類別 星級 有幫助的選票 總票數 綠標 是否已覈實購買 評論標題 評論內容 評論日期
  • “綠標”:早期評論人計劃,和官方測評差不多;
  • “市場所在地”:與客戶的喜好和受益人羣有關,但是本題的marketplace都是US美國,所以可以作爲冗餘數據剔除;
  • “客戶ID”:可分析客戶的回頭率、評價程度、喜好程度、購買時間、對商品的喜好是否有關聯程度(有個啤酒與尿布的案例:中年男子的購物列表裏經常同時出現尿布和啤酒,後研究發現是很多奶爸會在給寶寶買完尿布後給自己買啤酒喝,因此該商場將啤酒和尿布放在一起,使得兩者銷量大增)?喜歡購買的產品類型是否有特徵;PS:客戶ID是一個較爲重要的數據標籤。
  • “評論ID”:可分析客戶的反饋,調整銷售策略或改進產品。此處應該指的是參與投票時的“評論的特徵序號”,用於區分不同的評論,可以與後面的“評論標題、評論內容”關聯起來,“捆綁”三個數據標籤;
  • “產品ID”:就是產品的名字,很重要。PS:前面提到的三個ID都是關鍵值(key);
  • “產品父項”、“產品名稱”、“產品類別”:這三者和產品ID關聯。產品父項指產品所屬大類的序號,產品類別就是“寶寶用品”、“生活用品”、“家電”等,可作爲冗餘數據刪除。PS:其中,“產品名稱”、“產品父項”、“產品ID”可能會有冗餘項,需對數據進行篩選後判斷;
  • “星級”、“有幫助的票數“、”總票數“:”星級“是對產品的評級,後兩者“票數”是對評論進行評價。可將這三者與後面的“評論標題、評論內容”進行關聯,用“星級”評價商品,用“票數”評價“星級”,實現一個“三級評價指標”,增強此部分數據的可信度;
  • “是否已覈實購買”:就是這個交易訂單有沒有成功,別沒付錢,然後亂評價影響市場;
  • “評論日期”:就是對產品的評論日期,和陽光公司感興趣的“基於時間的模式”有關。

解題思路1

  • 問題1提到,用[“產品星級評估”、“評論”、“評論星級評級”]對[“定量/定性模式(quantitative and/or qualitative patterns)”、“關係”、“度量/評價”、“各類參數”]進行分析。觀察我剛剛的表述方式就可以大致設想一下,建立一個具有“輸入”和“輸出”的評價標準體系。

    此處可建立多種形式的模型,此處僅供舉例說明用,方法不唯一。
    例如:f(產品星級評估,評論,評論星級評級)=(度量/評價,產品各類參數/喜好度/好評率/實用性/等等),而這個f(x)函數模型就是“模式”或“關係”的具體數學描述。

  • 其中,對於“定量/定性模式”和“關係”的挖掘是較爲關鍵的。數據庫模式是數據的一種邏輯形式,比如常說的“線性表”、“鏈表”、“樹形圖”都可以被稱爲一種數據庫模式。針對於此題的話,可以就這麼簡單理解,不用深入。

  • 所以,在這題中,或許可能是個樹形圖。比如,根結點是客戶,然後一級子節點是客戶買過的東西,二級子節點是產品星級評級,三級是評論的星級評級,以此類推。抽象地來說就好像是在數據篩選處理之後,把.tsv文件裏的表格數據順時針旋轉90°一樣,得到的從根(客戶ID)到葉子節點(星級、評論等)的模式。

  • 關於數據處理的方式,可以參考如下:

    首先,根據前文的數據性質,對數據進行完整性、冗餘度等進行篩選(包括刪除、插值等);
    然後將同類數據合併,並對數據進行標準化便於處理(比如好就是1,差評就是0),將文字儘量轉化爲數學符號表示;
    最後構造上述的f函數模型,以達到建立輸入輸出關係並反映評價標準的目的。方法可參考如下,暫不詳述:灰度預測、神經網絡預測、時間序列、模糊綜合判斷、主成分分析、層次分析等。(關於這些方法的功能有些遺忘,如果裏面有不恰當的方法請替我指出)

問題2:分析、解決以下問題

  • a)基於對陽光公司影響最大的評級(rating)和評論(review)這兩個指標,確定一個數據衡量(measures)方法;
  • b)基於那些“能預測或暗示產品在市場上聲譽增加或減少的”數據,來分析討論“基於時間的度量方法(measures)和模式(patterns)”;
  • c)以尋找一個“暗示或預示產品的成功或失敗的”潛在性的方法爲目的,確定一套“基於文本(text-based)和評級(rating-based)的綜合度量方法”;
  • d)特定的星級是否會引起更多的評論?例如,客戶看到一連串的差評,他是否會更傾向於寫一個差評呢?
  • e)特定質量的文本評論(text-based reviews)是否和評級(rating)有強關聯性呢?例如,“對產品很滿意!”,“對產品很失望!”

解題思路2

a) 要求中已指明,是基於“評級rating”和“評論review”來建模,其中評級可以包括產品星級評級和評論星級評級。

  • 由於影響一個產品最重要的就是評級和評論,所以a題就讓我們先考慮這兩個因素;
  • 星級越高,說明產品越好;評論越好,說明產品越好,評論星級越高,說明評論越可信。其中需要注意的是,評論和星級的評價對象是產品,所以這兩者之間理應是一致的,但是現在不時的會出現“五星差評”和“一星黑粉”等等,也就是說出現了評級和星級不一致的情況。那麼,在這種情況下,有以下幾個辦法供參考:

    例如:首先對評級和星級進行關聯度處理,篩選出星級和評論一致的數據,此時星級和評論的作用一致,兩列數據一列冗餘,可以刪除一列;
    如果覺得剔除數據不擅長,可簡化成下述方法,例如:將星級和評論分別標準化爲權重,以權重來衡量這個產品的質量,比如我們通常會傾向於看評論而不是星級(五星差評),所以可以將評論的權重設置爲70%,星級權重設置爲30%,然後對上述兩種數據歸一化處理。
    PS:這一問需要一定的“自然語言處理(NLP)”的能力,對評論的感情進行分析。因爲人的語言蘊含的感情不是幾個詞就能表示的——“好產品!!!”、“這東西好到讓我吐!”、“哭了,沒見過這樣的寶貝!”

b) 要求已指明,是“基於時間的衡量方法和模式”。此處的模式可以想象成“以時間作爲存儲數據”的邏輯,類似於線性表,只不過座標軸是時間。

  • 這一問中,想找到某種數據間的關聯,這關聯能表明產品的聲譽是在隨時間增加還是減少。因此這裏就需要先對“時間”和“評級”建模,對“評級”的建模方法可參照a題,把星級和評論合二爲一再處理;

  • 而對時間也得進行處理,因爲在一段時間內,可能存在褒貶不一的情況,那麼這個時候就需要在這段時間內對評級進行處理。

    例如,把好評差評按照權重進行綜合;
    或者,對評價進行語言處理,分析一下到底是“真好評、真黑粉”還是“真差評、刷好評”。

  • 而在對評級、時間處理之後,就可以建立“時間-評級”模型,可以把產品的評價轉化成數值,數值越高評級越好。這樣的話,也許就能做出一條隨時間變化的評級曲線:比如,好評(假設已經對一段時間內的好評差評進行綜合處理之後)越來越多,那麼曲線應該就是越來越高的;反之,口碑崩了的話,評級就會一落千丈。

  • 最後,需要在上述“時間-評級”模型的拐點進行處理,在拐點處對評級進行分析,是什麼原因導致評級發生了變化。

    是有人發了好評,引起了更多人的共鳴?
    是有黑子帶節奏,讓不知情的人也來詆譭你的產品?
    還是什麼其他原因?

  • 最後,才能得出基於時間的度量方法和模式,才能分析基於時間模式的產品聲譽變化。

c) 就是找一個方法來推測產品是否能推廣成功,前提是“基於文本和評級“。

  • 這個方法和b又差不多,就是在不同的邏輯模式下分析,尋找能影響產品評級拐點的關鍵因素。這裏還是可以將文本評論和評級綜合起來,然後尋找一個“能預測未來產品口碑的事件點或原因”。PS:類似於股市中的“利好消息”、“利空消息(即變差的意思)”,一旦某天出現了利好/利空消息,之後的時間就會跟隨這個消息發生漲跌變化。

d) 探尋客戶的情緒是否會隨着他人的評論而被調動。就是讓你分析一下,是不是人們都有從衆心理,是不是容易被帶節奏(包括帶好節奏和帶壞節奏)。

  • 在這個問題中,只需要在前幾問的時間模式基礎下,分析一段時間內是否會有較爲集中的好評或差評即可。
  • 當然也可以說客戶不容易被帶動情緒,只有數據充分、言之有理即可。

e) 是否文本評論內容(text-based reviews)和評級(rating levels)有強關聯?

  • 這個是前面我在a中提到的一點,如何對評論內容和評級進行關聯。e題這一問確實需要對文本進行語義分析,確實涉及到“自然語言處理NLP”的知識。
  • 一般來說的話,文本評論越熱情,評級當然會越高——“愛死這個寶貝啦!五星!!!”、“垃圾產品一生黑,給一顆星都嫌多,怎麼不能給負的星?”

問題3

寫一篇小報告!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章