ACM SIGMOD 2020 編程競賽

比賽鏈接:http://www.inf.uniroma3.it/db/sigmod2020contest/task.html

比賽感受:

第一次參加數據庫頂級會議ACM SIGMOD編程比賽,拿到第十名,很不容易,繼續努力!

3月中旬才參加,那時已經有隊伍F評分0.99了,膜拜大佬······

另外吐槽一下某個相機title是d80,description是d90,還有附件也忒多了.......

比賽相關:

ACM SIGMOD是美國計算機協會ACM下屬的SIG系列學術會議,該會議始辦於1970年,曾經發表過在數據管理領域學術界和工業界影響非常深遠的開創性研究成果,例如ER模型,RAID磁盤冗餘陣列,分佈式數據庫系統,NoSQL數據庫系統等等。數據挖掘學科(以頂級數據挖掘學術會議SIGKDD爲代表)也是在2000年從SIGMOD會議的workshop中獨立出來並發展壯大。目前SIGMOD是國際上公認的在數據管理、數據庫、數據科學方向具有最高學術地位的國際會議。每年的SIGMOD程序競賽(ACM SIGMOD Programming Contest)題目取材於工業界所面臨的各種數據管理難題,旨在促進全球各高校和科研院所的數據科學專業研究生和博士生的學術交流,提高解決實際問題的能力。

今年任務:

在電子商務網站中有各種各樣的商品,商品的描述採用JSON格式來表示,一個JSON格式是“屬性:值”的一個集合,用來描述該商品的名稱、生產商、參數、外觀、尺寸等信息。由於不同的經銷商在把商品放到電子商務網站的時候,他們對商品的描述有很大的差異,例如,對於數碼相機,有的經銷商用屬性名稱‘resolution’來表示相機的分辨率,而有的經銷商用’pixels’來表示分辨率。

這次編程競賽的問題是:現在有來自多個電子商務網站的JSON文件,每個JSON文件是一個商品的信息;要從這些JSON文件中找出所有兩兩相同的商品。

數據格式:

每一個文件夾對應一個電子商務網站,文件夾裏包括有多個JSON文件,而每個JSON文件是該電子商務網站上出售的一個商品。例如,在ebay文件夾裏的23857.json數據文件是一臺Kodak Eashshare Z980相機,其格式如下:

{

    "<page title>": "Kodak Eashyshare Z980 | eBay",

    "beautiful pictures more often  automatically": "Who says you can't have it all? The Kodak EASYSHARE Z980 digital camera blends the latest picture-taking technology with the ultimate in style. And with Kodak's innovative smart capture feature, it's the take-anywhere camera that does it all - automatically.",

    "brand": "Kodak",

    "bundled items": "Case or Bag, Lens, Tripod",

    "megapixels": "12.0 MP",

    "model": "Z980",

    "mpn": "1837152",

    "optical zoom": "24x",

    "screen size": "3\"",

    "the simple way to share": "The Z980 is part of the Kodak EASYSHARE system, so sharing your pictures is amazingly simple. Just press share.",

    "type": "Point & Shoot"

}

輸出格式:

算法找出所有相同的商品,成對的輸出相同的商品ID,並把結果用CSV格式保存下來。示例如下:

  left_spec_id            right_spec_id

www.sourceA.com//2 www.sourceB.com//2

www.sourceA.com//3 www.sourceA.com//1

www.sourceA.com//3 www.sourceB.com//3

www.sourceA.com//3 www.sourceB.com//1

其中,每一條表示兩個相同的商品,即每一列表示一個商品。例如第二行中,在文件夾www.sourceA.com裏的2.json文件所代表的商品與www.sourceB.com裏的2.json文件所代表的商品是一樣的。

比賽結果:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章