2020 MCM Weekend 2 Problem C,2020美賽C題——整理版思路

問題一

問題原文

  1. Analyze the three product data sets provided to identify, describe, and support with mathematical evidence, meaningful quantitative and/or qualitative patterns, relationships, measures, and parameters within and between star ratings, reviews, and helpfulness ratings that will help Sunshine Company succeed in their three new online marketplace product offerings.
    分析提供的三個產品數據集,根據識別,描述和支持的數學證據,確定有意義的定量和/或定性的模式、關係、度量和參數,這些數據將在星級,評論和幫助等級之內和之間進行,這將有助於Sunshine 公司在他們的三個新的在線銷售的產品取得成功。

參考思路

思路①:

分析數據集,將數據集中的文本進行文本數據分析,然後用Spss軟件建立迴歸模型,自變量爲 評價星級、有用性投票、評論,因變量爲產品上線後是否會取得成功。

思路②:

首先,對數據集進行 完整性、冗餘度等篩選,然後利用python或者MATLAB對評價的詞頻進行統計,最後再預測一個方程來擬合數據,得到每個評語對應的權重。總之,最重要的是先對評價做詞頻統計!

思路③:

運用數據挖掘和文本挖掘算法,利用python等對題中所給的數據庫建立客戶評價分析系統,最後得到產品上線後取得成功的概率。

問題二

問題原文

  1. Use your analysis to address the following specific questions and requests from he Sunshine Company Marketing Director:
    2.使用您的分析解決陽光公司市場總監的以下特定問題和要求:
  • a. Identify data measures based on ratings and reviews that are most informative for Sunshine Company to track, once their three products are placed on sale in the online marketplace.
    a. 一旦三種產品在在線市場上出售後,根據評級和評論來識別數據度量,這對於Sunshine Company最爲有用。
  • b. Identify and discuss time-based measures and patterns within each data set that might suggest that a product’s reputation is increasing or decreasing in the online marketplace.
    b. 在每個數據集中識別並討論基於時間的度量和模式,這些度量和模式可能表明產品在在線市場中的聲譽在上升或下降。
  • c. Determine combinations of text-based measure(s) and ratings-based measures that best indicate a potentially successful or failing product.
    c. 確定最能表明潛在成功或失敗產品的基於文本的度量和基於評級的度量的組合。
  • d. Do specific star ratings incite more reviews? For example, are customers more likely to write some type of review after seeing a series of low star ratings?
    d. 特定的星級評級是否會引發更多的評論?例如,在看到一系列的低星級評價後,客戶更有可能寫一些評論嗎?
  • e. Are specific quality descriptors of text-based reviews such as ‘enthusiastic’,‘disappointed’, and others, strongly associated with rating levels?
    e. 基於文本的評論的特定質量描述符,如“熱情”、“失望”等,是否與評級水平密切相關?

參考思路

2.a 思路

預測三種產品上市後,根據對陽光公司產品的數據追蹤,確定最有用的評級(星級和幫助等級)和評論的組合。即用問題一中的模型求出什麼星級加什麼幫助等級和什麼評論就是最有用的組合。或者通過數據分析假設出一種綜合評價機制,類似於Google發明的一個名爲 pagerank的量——它可以度量網頁的重要程度,從而對用戶想搜索的網頁進行排序。

2.b 思路

在模型中添加時間這一度量模式。用擬合曲線預測隨着時間的增長,客戶選購物品時,評級和評價的變化趨勢。再通過挖掘篩選後的數據繪畫出隨着年份的增加三種產品在在線市場上評級的高低(聲譽的高低)。最重要的是一定要考慮到time-based這個概念,即你的指標應該是可以隨時間表示或可視化的,並且還必須得是動態的。

2.c 思路

此問是求最能表明潛在成功或失敗的產品的評級和文本(評論)的組合,與a有些相似。即從最有用的組合中通過對比挑選出最能表示成功和失敗的評級和文本組合。這一問可以考慮用第一問做出的詞頻統計結合文本情感分析來做。

2.d 思路

此問主要討論星級與評論之間的關係,還是會用到挖掘篩選過的文本數據。對數據進行統計分析,看各個星級與評論文本的相關性。這裏需要劃分文本類型,可以通過詞頻統計自己賦值權重,也直接粗暴地通過通過特徵詞語(good, bad)劃分。

2.e 思路

最後一小問就是結合對對文本數據的分析,可以去d題連着一起做,只需要找出詞頻最高的一些詞並與評級做相關性分析即可。

結語

自由發揮,
分析合理,
自圓其說即可。

附錄

2020 MCM Weekend 2 Problem C,2020美賽C題——完整版題目:完整版題目
2020 MCM Problem C Translation,2020美賽C題——詳細版翻譯:詳細版翻譯

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章