文前推廣

《計算機保研經歷分享》
—— 大學期間參加了有含金量的比賽，該如何利用自身的優勢保研、考研或求職？或者僅僅就是爲了做一份好看的簡歷“以備不時之需”？
—— 關注我的文章，我會後期開始更新文章，以保研經歷爲切入口，分析“如何放大自身優勢”，實現目標！
https://blog.csdn.net/qq_42037420/article/details/104353307

《數學建模想獲獎？國賽、美賽看這一個就夠了》
—— 數學建模的進階指南！內容全面、門類齊全，包含組隊、日常訓練、算法（含MATLAB代碼）、建模、寫作和“高校內部培訓資源”等諸多方面的指導！千載難逢、不容錯過！
—— 有條件的朋友們支持一下，謝謝！
需要“數學建模國賽美賽資源包”的關注公衆號“貓和真人”，回覆“1”即可獲得資源包，有條件的支持一下哈！

正文

本文可能用到的網站鏈接：
https://ourworldindata.org/plastic-pollution

Problem C: A Wealth of Data

亞馬遜在網購平臺提供了兩種功能：評級/星級(rate)、評估/評論(review)。個人評級稱爲“產品星級評估（star rating）”，也就是客戶買完產品後的評價，由1星到5星；另外，購買產品的客戶還能評論，表達自己的意見和信息。而其他客戶還可以對這些評論進行評級，稱爲“幫助性評級/評論星級評級（helpfulness rating）”。公司用這些數據去了解市場、瞭解市場參與時機、對產品的設計改造等。

陽光公司打算在網上市場推出“吹風機”、“嬰兒奶嘴”、“微波爐”三款產品。他們希望得到以往客戶對同類競爭產品的評價，例如：關鍵模式（數據庫領域術語，可以理解爲這些產品邏輯層面上的結構）、關係、度量/評估/判定（可以理解爲“評價”一類的意思）、各類參數（原文：key patterns, relationships, measures, and parameters）。PS：翻譯或有不妥，請指正。以便爲他們做兩件事：（1）確定在線銷售策略，（2）分析產品的關鍵設計特徵，以提高產品的競爭力。

該公司曾用過數據來指導銷售，但未用過如此特殊的數據組合，所以他們對其中的“基於時間的模式（time-based patterns）”很感興趣，也希望知道這種方法能否幫助他們成功塑造產品的可交互性。

亞馬遜已在附件中爲您提供了相應三款產品（奶嘴、吹風機、微波爐）的往期數據，其中包括客戶信息、評級信息、評論等有用的信息。

問題1：用數學的方法，對上述三款產品數據集進行分析。主要是根據“產品星級評估”、“評論”、“評論星級評級”，對“定量/定性模式（quantitative and/or qualitative patterns）”、“關係”、“度量/評價”、“各類參數”進行分析，來幫助公司。

三款產品往期數據標籤：

marketplace	customer_id	review_id	product_id	product_parent	product_title	product_category	star_rating	helpful_votes	total_votes	vine	verified_purchase	review_headline	review_body	review_date
市場所在地	客戶ID	評論ID	產品ID	產品父項	產品名稱	產品類別	星級	有幫助的選票	總票數	綠標	是否已覈實購買	評論標題	評論內容	評論日期

“綠標”：早期評論人計劃，和官方測評差不多；
“市場所在地”：與客戶的喜好和受益人羣有關，但是本題的marketplace都是US美國，所以可以作爲冗餘數據剔除；
“客戶ID”：可分析客戶的回頭率、評價程度、喜好程度、購買時間、對商品的喜好是否有關聯程度（有個啤酒與尿布的案例：中年男子的購物列表裏經常同時出現尿布和啤酒，後研究發現是很多奶爸會在給寶寶買完尿布後給自己買啤酒喝，因此該商場將啤酒和尿布放在一起，使得兩者銷量大增）？喜歡購買的產品類型是否有特徵；PS：客戶ID是一個較爲重要的數據標籤。
“評論ID”：可分析客戶的反饋，調整銷售策略或改進產品。此處應該指的是參與投票時的“評論的特徵序號”，用於區分不同的評論，可以與後面的“評論標題、評論內容”關聯起來，“捆綁”三個數據標籤；
“產品ID”：就是產品的名字，很重要。PS：前面提到的三個ID都是關鍵值（key）；
“產品父項”、“產品名稱”、“產品類別”：這三者和產品ID關聯。產品父項指產品所屬大類的序號，產品類別就是“寶寶用品”、“生活用品”、“家電”等，可作爲冗餘數據刪除。PS：其中，“產品名稱”、“產品父項”、“產品ID”可能會有冗餘項，需對數據進行篩選後判斷；
“星級”、“有幫助的票數“、”總票數“：”星級“是對產品的評級，後兩者“票數”是對評論進行評價。可將這三者與後面的“評論標題、評論內容”進行關聯，用“星級”評價商品，用“票數”評價“星級”，實現一個“三級評價指標”，增強此部分數據的可信度；
“是否已覈實購買”：就是這個交易訂單有沒有成功，別沒付錢，然後亂評價影響市場；
“評論日期”：就是對產品的評論日期，和陽光公司感興趣的“基於時間的模式”有關。

解題思路1

問題1提到，用[“產品星級評估”、“評論”、“評論星級評級”]對[“定量/定性模式（quantitative and/or qualitative patterns）”、“關係”、“度量/評價”、“各類參數”]進行分析。觀察我剛剛的表述方式就可以大致設想一下，建立一個具有“輸入”和“輸出”的評價標準體系。

此處可建立多種形式的模型，此處僅供舉例說明用，方法不唯一。
例如：f(產品星級評估，評論，評論星級評級)=（度量/評價，產品各類參數/喜好度/好評率/實用性/等等），而這個f(x)函數模型就是“模式”或“關係”的具體數學描述。
其中，對於“定量/定性模式”和“關係”的挖掘是較爲關鍵的。數據庫模式是數據的一種邏輯形式，比如常說的“線性表”、“鏈表”、“樹形圖”都可以被稱爲一種數據庫模式。針對於此題的話，可以就這麼簡單理解，不用深入。
所以，在這題中，或許可能是個樹形圖。比如，根結點是客戶，然後一級子節點是客戶買過的東西，二級子節點是產品星級評級，三級是評論的星級評級，以此類推。抽象地來說就好像是在數據篩選處理之後，把.tsv文件裏的表格數據順時針旋轉90°一樣，得到的從根（客戶ID）到葉子節點（星級、評論等）的模式。
關於數據處理的方式，可以參考如下：

首先，根據前文的數據性質，對數據進行完整性、冗餘度等進行篩選（包括刪除、插值等）；
然後將同類數據合併，並對數據進行標準化便於處理（比如好就是1，差評就是0），將文字儘量轉化爲數學符號表示；
最後構造上述的f函數模型，以達到建立輸入輸出關係並反映評價標準的目的。方法可參考如下，暫不詳述：灰度預測、神經網絡預測、時間序列、模糊綜合判斷、主成分分析、層次分析等。（關於這些方法的功能有些遺忘，如果裏面有不恰當的方法請替我指出）

問題2：分析、解決以下問題

a)基於對陽光公司影響最大的評級(rating)和評論(review)這兩個指標，確定一個數據衡量(measures)方法；
b)基於那些“能預測或暗示產品在市場上聲譽增加或減少的”數據，來分析討論“基於時間的度量方法(measures)和模式(patterns)”；
c)以尋找一個“暗示或預示產品的成功或失敗的”潛在性的方法爲目的，確定一套“基於文本(text-based)和評級(rating-based)的綜合度量方法”；
d)特定的星級是否會引起更多的評論？例如，客戶看到一連串的差評，他是否會更傾向於寫一個差評呢？
e)特定質量的文本評論(text-based reviews)是否和評級(rating)有強關聯性呢？例如，“對產品很滿意！”，“對產品很失望！”

解題思路2

a) 要求中已指明，是基於“評級rating”和“評論review”來建模，其中評級可以包括產品星級評級和評論星級評級。

由於影響一個產品最重要的就是評級和評論，所以a題就讓我們先考慮這兩個因素；
星級越高，說明產品越好；評論越好，說明產品越好，評論星級越高，說明評論越可信。其中需要注意的是，評論和星級的評價對象是產品，所以這兩者之間理應是一致的，但是現在不時的會出現“五星差評”和“一星黑粉”等等，也就是說出現了評級和星級不一致的情況。那麼，在這種情況下，有以下幾個辦法供參考：

例如：首先對評級和星級進行關聯度處理，篩選出星級和評論一致的數據，此時星級和評論的作用一致，兩列數據一列冗餘，可以刪除一列；
如果覺得剔除數據不擅長，可簡化成下述方法，例如：將星級和評論分別標準化爲權重，以權重來衡量這個產品的質量，比如我們通常會傾向於看評論而不是星級（五星差評），所以可以將評論的權重設置爲70%，星級權重設置爲30%，然後對上述兩種數據歸一化處理。
PS：這一問需要一定的“自然語言處理(NLP)”的能力，對評論的感情進行分析。因爲人的語言蘊含的感情不是幾個詞就能表示的——“好產品！！！”、“這東西好到讓我吐！”、“哭了，沒見過這樣的寶貝！”

b) 要求已指明，是“基於時間的衡量方法和模式”。此處的模式可以想象成“以時間作爲存儲數據”的邏輯，類似於線性表，只不過座標軸是時間。

這一問中，想找到某種數據間的關聯，這關聯能表明產品的聲譽是在隨時間增加還是減少。因此這裏就需要先對“時間”和“評級”建模，對“評級”的建模方法可參照a題，把星級和評論合二爲一再處理；
而對時間也得進行處理，因爲在一段時間內，可能存在褒貶不一的情況，那麼這個時候就需要在這段時間內對評級進行處理。

例如，把好評差評按照權重進行綜合；
或者，對評價進行語言處理，分析一下到底是“真好評、真黑粉”還是“真差評、刷好評”。
而在對評級、時間處理之後，就可以建立“時間-評級”模型，可以把產品的評價轉化成數值，數值越高評級越好。這樣的話，也許就能做出一條隨時間變化的評級曲線：比如，好評（假設已經對一段時間內的好評差評進行綜合處理之後）越來越多，那麼曲線應該就是越來越高的；反之，口碑崩了的話，評級就會一落千丈。
最後，需要在上述“時間-評級”模型的拐點進行處理，在拐點處對評級進行分析，是什麼原因導致評級發生了變化。

是有人發了好評，引起了更多人的共鳴？
是有黑子帶節奏，讓不知情的人也來詆譭你的產品？
還是什麼其他原因？
最後，才能得出基於時間的度量方法和模式，才能分析基於時間模式的產品聲譽變化。

c) 就是找一個方法來推測產品是否能推廣成功，前提是“基於文本和評級“。

這個方法和b又差不多，就是在不同的邏輯模式下分析，尋找能影響產品評級拐點的關鍵因素。這裏還是可以將文本評論和評級綜合起來，然後尋找一個“能預測未來產品口碑的事件點或原因”。PS：類似於股市中的“利好消息”、“利空消息（即變差的意思）”，一旦某天出現了利好/利空消息，之後的時間就會跟隨這個消息發生漲跌變化。

d) 探尋客戶的情緒是否會隨着他人的評論而被調動。就是讓你分析一下，是不是人們都有從衆心理，是不是容易被帶節奏（包括帶好節奏和帶壞節奏）。

在這個問題中，只需要在前幾問的時間模式基礎下，分析一段時間內是否會有較爲集中的好評或差評即可。
當然也可以說客戶不容易被帶動情緒，只有數據充分、言之有理即可。

e) 是否文本評論內容(text-based reviews)和評級(rating levels)有強關聯？

這個是前面我在a中提到的一點，如何對評論內容和評級進行關聯。e題這一問確實需要對文本進行語義分析，確實涉及到“自然語言處理NLP”的知識。
一般來說的話，文本評論越熱情，評級當然會越高——“愛死這個寶貝啦！五星！！！”、“垃圾產品一生黑，給一顆星都嫌多，怎麼不能給負的星？”

問題3

寫一篇小報告！

2020美賽C題解題思路（A Wealth of Data）

Problem C: A Wealth of Data

解題思路1

問題2：分析、解決以下問題

解題思路2

問題3

2020美賽B題解題思路（The Longest Lasting Sandcastle(s)）

2020美賽C題解題思路（A Wealth of Data）

計算機保研經歷分享

2020美賽F題解題思路（The Place I Called Home…）

2020美賽E題解題思路（Drowning in Plastic）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結