2018年"華爲杯"數學建模獲獎名單挖掘分析

本文針對2018年"華爲杯"數學建模6張擬獲獎名單做一次簡單的統計分析，以下分析結果僅代表思路，勿要以假亂真，權威結果統計以各大高校官方結果爲準。以該2018年"華爲杯"A，B，C，D，E，F共計6道題目的擬獲獎名單爲原材料。主要鍛鍊Python數據處理中的以下功能點的使用：
功能點：

1.把6張擬獲獎名單進行拼接
··· 1.1.1.將6張表橫向拼接；
··· 1.1.2.將6張表縱向拼接(後續處理主要使用按豎直方向拼接)；
··· 1.1.3.簡單的檢索功能；
··· ··· ··· input:傳入自己學校的名稱即可整理出本校的參賽情況
··· ··· ···output:該校的參賽情況整合表
完成1中的處理針對單個高校信息的抽取已經可以完成，並在Excel表格中可以很容易的做出篩選和排序，並計算各個學校總的獲獎率和每道題目對應的獲獎率等等。但是要實現對全國參賽的上百組高校隊伍的批量分析和統計，設計詳細的數據結構存儲數據是必須的。第二部分將實現對全國參賽的上百組高校隊伍的參賽和獲獎情況的批量分析和統計。
2.抽取參賽高校列表
3.分別抽取出來每個學校的參賽信息(按學校分羣，高校名做索引)
4.統計每個學校的參賽信息
··· 4.1.設計存儲每一個學校參賽相關信息的數據結構
··· 4.2.分別統計每一個大學的各個賽題參與和完成獲獎情況
··· 這裏由宏觀到微觀鋪開整個數據結構的組織結果：
··· ···A.宏觀(全部高校參賽情況對象字典，每一個高校參賽情況對象記爲xuexiao1)
··· ···B.微觀:xuexiao1對象的展開
··· ···C.xuexiao1對象中的"學校各題獲獎明細"展開
5.統計shanghai地區大學的參賽情況
····5.1.統計shanghai地區大學的參賽情況
····5.2.統計shanghai地區部分大學的參賽獲獎情況
····5.3.統計全國參賽的情況
注：由於學生隊伍成員組隊方式的靈活性，本文將以隊伍爲研究粒度來做統計分析。
6.參賽人數的統計
7.每個大學"答題明細"對象挖掘分析
以同濟大學和SMU大學爲例。
··· 7.2.1.兩個學校6道賽題完成情況一覽
··· 7.2.2.兩個學校6道賽題一等獎情況一覽
··· 7.2.3.高校數模戰鬥力排行榜(取戰鬥力前100名高校)

實現過程

1. 將6張擬獲獎名單進行拼接

1.1.1.將6張表橫向拼接；

import pandas as pd
import xlwt
import numpy as np
file_path=r'C:/Users/Administrator/Desktop/AAA/'
data_A=pd.read_excel(file_path+'2018年最終獲獎名單_A題.xls',encode='gbk')
len(data_A) #678
data_A.columns.tolist()  
#['序號', '題號', '隊伍編號', '獎項', '隊長姓名', '隊長所在單位', '第一隊友姓名', '第一隊友所在單位', '第二隊友姓名', '第二隊友所在單位']
data_B=pd.read_excel(file_path+'2018年最終獲獎名單_B題.xls',encode='gbk')
len(data_B) #1899
data_C=pd.read_excel(file_path+'2018年最終獲獎名單_C題.xls',encode='gbk')
len(data_C) #5560
data_D=pd.read_excel(file_path+'2018年最終獲獎名單_D題.xls',encode='gbk')
len(data_D) #557
data_E=pd.read_excel(file_path+'2018年最終獲獎名單_E題.xls',encode='gbk')
len(data_E) #1509
data_F=pd.read_excel(file_path+'2018年最終獲獎名單_F題.xls',encode='gbk')
len(data_F) #2004
data_all=pd.concat([data_A,data_B,data_C,data_D,data_E,data_F],axis=1) 
#橫向拼接設置axis=1,沿着水平方向來拼接。
print(data_all.head(10))
len(data_all)   #5560
#data_all拼接後的維度大小爲:rownum x 6*columnnum
rownum=max([len(data_A),len(data_B),len(data_C),len(data_D),len(data_E),len(data_F)])
columnnum=len(data_A.columns.tolist()  )
print(data_all.head(5))   #出於尊重他人隱私的目的,詳細的結果不在此給出,後續也希望參看該篇博客文章練習的同學勿輕易泄露他人信息爲盼！！！

1.1.2.將6張表縱向拼接；

import pandas as pd
import xlwt
import numpy as np
file_path=r'C:/Users/Administrator/Desktop/AAA/'
data_A=pd.read_excel(file_path+'2018年最終獲獎名單_A題.xls',encode='gbk')
len(data_A) #678
data_A.columns.tolist()  
#['序號', '題號', '隊伍編號', '獎項', '隊長姓名', '隊長所在單位', '第一隊友姓名', '第一隊友所在單位', '第二隊友姓名', '第二隊友所在單位']
data_B=pd.read_excel(file_path+'2018年最終獲獎名單_B題.xls',encode='gbk')
len(data_B) #1899
data_C=pd.read_excel(file_path+'2018年最終獲獎名單_C題.xls',encode='gbk')
len(data_C) #5560
data_D=pd.read_excel(file_path+'2018年最終獲獎名單_D題.xls',encode='gbk')
len(data_D) #557
data_E=pd.read_excel(file_path+'2018年最終獲獎名單_E題.xls',encode='gbk')
len(data_E) #1509
data_F=pd.read_excel(file_path+'2018年最終獲獎名單_F題.xls',encode='gbk')
len(data_F) #2004
data_all=pd.concat([data_A,data_B,data_C,data_D,data_E,data_F],axis=0) 
#橫向拼接設置axis=0,沿着豎直方向來拼接。
print(data_all.head(10))
len(data_all)   #5560
#data_all拼接後的維度大小爲:rownum x columnnum
rownum=sum([len(data_A),len(data_B),len(data_C),len(data_D),len(data_E),len(data_F)]) #12207
columnnum=len(data_A.columns.tolist())    #10
print(data_all.head(5))   #出於尊重他人隱私的目的,詳細的結果不在此給出,後續也希望參看該篇博客文章練習的同學勿輕易泄露他人信息爲盼！！！

1.1.3.簡單的檢索功能；

#1.檢索自己學校的參賽情況
file_path=r'C:/Users/Administrator/Desktop/AAA/'    #outputfile path
data_SMU=data_all[((data_all['隊長所在單位']=='XX大學')|
                                    (data_all['第一隊友所在單位']=='XX大學')|
                                    (data_all['第二隊友所在單位']=='XX大學'))]
data_SMU.to_excel(file_path+'XX大學2018研究生建模參賽信息彙總.xls',encoding='gbk')
#2.#1.獲獎隊伍
prized=data_SMU[~(data_SMU['獎項']=='成功參與獎')]
#2.未獲獎隊伍
unprized=data_SMU[data_SMU['獎項']=='成功參與獎']
prized['獎項'].value_counts()  #分別計算各個獎項獲獎隊伍數,默認是降序
"""
三等獎    63
二等獎    30
一等獎     3
"""
prizedCount=prized['獎項'].value_counts(ascending=True)
"""
一等獎     3
二等獎    30
三等獎    63
"""
unprizedCount=unprized['獎項'].value_counts() #計算成功參與獎的獲獎隊伍數
#成功參與獎    139
#2018華爲杯全國研究生數學建模,XX大學隊伍獲獎率
prizedsum=np.sum(prizedCount[:])
prizeate=np.sum(prizedCount)/(np.sum(unprizedCount)+prizedsum) # 0.4393063583815029
prizeate # 0.4393063583815029
#XX大學總人數佔2018年參賽隊伍比重
rate=sum(sum(prizedCount)+unprizedCount)/data_all.shape[0] #參賽總人數=12207
rate
#3."""1.發現數據中: 一等獎（華爲）和 一等獎同類異名,考慮去重複項併合並,使用正則表達式或者字符串替換"""
data_all['獎項']=data_all['獎項'].apply(lambda x:x.replace('一等獎（華爲）','一等獎')) #同類異名的合併
#4.全國的獲獎分層情況
chooses,category=[data_all['題號'].value_counts(ascending=True),data_all['獎項'].value_counts(ascending=True)]
chooses
category
totalNum=data_all.shape[0]
prize1_rate,prize2_rate,prize3_rate,unprize_rate=category/totalNum
print('\n一等獎: ',prize1_rate,'\n二等獎: ',prize2_rate,'\n三等獎: ',prize3_rate,'\n成功參與獎: ',unprize_rate)
#獲獎人數&未獲獎人數佔比
lucky_count=sum(category[:3]) #獲獎人數:4358
success_join_count=totalNum-lucky_count #未獲獎人數:7849
print('2018年華爲杯數學建模獲獎率: ',prize1_rate+(prize2_rate+prize3_rate))

效果：

一等獎:  0.015073318587695584 
二等獎:  0.13008929302859015 
三等獎:  0.21184566232489555 
成功參與獎:  0.6429917260588187
2018年華爲杯數學建模獲獎率:  0.3570082739411813

2.抽取參賽高校列表

#高校名稱列表
import pandas as pd
university_list=list(pd.concat([data_all['隊長所在單位'],data_all['第一隊友所在單位'],data_all['第二隊友所在單位']]).unique())
university_list

['華北電力大學',
 '吉林大學',
 '東北林業大學',
 '同濟大學',
 '華東師範大學',
 ……
 '美國康奈爾大學',
 '重慶醫科大學',
 '北京語言大學',
 '中共上海市委黨校',
 '香港大學',
 '新加坡國立大學',
 '中國人民公安大學',
 '中國航天科技集團公司航天時代電子公司（13所）',
 '中國航天科技集團公司第五研究院（511 所）',
 '中國航天科技集團公司第一研究院（14所）',
 '密歇根大學',
 '國家海洋局第一海洋研究所',
 '中國航天科工集團公司第三研究院（35所）',
 '中國地震局地球物理研究所',
 '中國航天科技集團公司第一研究院（703所）']

3.分別抽取出來每個學校的參賽信息(對學校分羣)

#分別抽取出來每個學校的參賽信息
#university=[] #將各個大學分羣
university={} #將各個大學分羣
totalNum=data_all.shape[0] #參賽隊伍總支數
for i in range(len(university_list)):
    #grade.append(university_list[i]+str(i))
    del data_SMU
    data_SMU=data_all[((data_all['隊長所在單位']==university_list[i])|(data_all['第一隊友所在單位']==university_list[i])|(data_all['第二隊友所在單位']==university_list[i]))].reset_index(drop=True)
    del data_SMU['序號']
    university[university_list[i]]=data_SMU

4.統計每個學校的參賽信息
4.1.設計存儲每一個學校參賽相關信息的數據結構

xuexiao1={'學校名稱':XX大學,
          '參賽人數':1000,
          '獲獎總隊伍數':480,
          '未獲獎總隊伍數':1000-480,
          '學校各題獲獎比率':[{‘A’：18.5%}，{‘B’：28.5%}，{C’：15.5%}，{‘D’：38.5%}，{‘C’：58.5%}，{‘D’：48.5%}],
          '學校獲獎比':480/1000
          '學校各題獲獎明細':{
          'A':{'一等獎隊伍數':one_prize1, '一等獎獲獎比率':one_rate1,'二等獎隊伍數':two_prize1, '二等獎獲獎比率':two_rate1, '三等獎隊伍數':three_prize1,'三等獎獲獎比率':three_rate1,'成功參與獎隊伍數':non_prize1,'未獲獎比率':non_rate1, '獲獎隊伍數':award_prize,'獲獎比率':prized_rate1},
          'B':{'一等獎隊伍數':one_prize1, '一等獎獲獎比率':one_rate1,'二等獎隊伍數':two_prize1, '二等獎獲獎比率':two_rate1, '三等獎隊伍數':three_prize1,'三等獎獲獎比率':three_rate1,'成功參與獎隊伍數':non_prize1,'未獲獎比率':non_rate1, '獲獎隊伍數':award_prize,'獲獎比率':prized_rate1},
          'C':{'一等獎隊伍數':one_prize1, '一等獎獲獎比率':one_rate1,'二等獎隊伍數':two_prize1, '二等獎獲獎比率':two_rate1, '三等獎隊伍數':three_prize1,'三等獎獲獎比率':three_rate1,'成功參與獎隊伍數':non_prize1,'未獲獎比率':non_rate1, '獲獎隊伍數':award_prize,'獲獎比率':prized_rate1},
          'D':{'一等獎隊伍數':one_prize1, '一等獎獲獎比率':one_rate1,'二等獎隊伍數':two_prize1, '二等獎獲獎比率':two_rate1, '三等獎隊伍數':three_prize1,'三等獎獲獎比率':three_rate1,'成功參與獎隊伍數':non_prize1,'未獲獎比率':non_rate1, '獲獎隊伍數':award_prize,'獲獎比率':prized_rate1},
          'E':{'一等獎隊伍數':one_prize1, '一等獎獲獎比率':one_rate1,'二等獎隊伍數':two_prize1, '二等獎獲獎比率':two_rate1, '三等獎隊伍數':three_prize1,'三等獎獲獎比率':three_rate1,'成功參與獎隊伍數':non_prize1,'未獲獎比率':non_rate1, '獲獎隊伍數':award_prize,'獲獎比率':prized_rate1},
          'F':{'一等獎隊伍數':one_prize1, '一等獎獲獎比率':one_rate1,'二等獎隊伍數':two_prize1, '二等獎獲獎比率':two_rate1, '三等獎隊伍數':three_prize1,'三等獎獲獎比率':three_rate1,'成功參與獎隊伍數':non_prize1,'未獲獎比率':non_rate1, '獲獎隊伍數':award_prize,'獲獎比率':prized_rate1}
            }
          }

4.2.分別統計每一個大學的各個賽題參與和完成獲獎情況

totalUniv={}
saiti_list=['A','B','C','D','E','F']
for i in range(len(university)):
#for i in range(5):
    #print(university[university_list[0]]) #university爲字典,學校名稱爲key
    xiexiao={}
     #xiexiao1=university[university_list[3]]
    xiexiao1=university[university_list[i]]
    #xiexiao1=university[university_list[77]] #3--同濟大學，77--海事大學
    #學校名稱(三列中的衆數)
    zhongshu=pd.concat([xiexiao1['隊長所在單位'],xiexiao1['第一隊友所在單位'],xiexiao1['第二隊友所在單位']]) #Series
    xiexiao['學校名稱']= zhongshu.value_counts().index[0] #value_counts默認是降序,選擇衆數對應的索引值即爲學校.
    #chooses=xiexiao1['題號'].value_counts(ascending=True) #對應賽題選做隊伍支數
    ##A=xiexiao1[xiexiao1['題號']].value_counts()
    #prizeoption=xiexiao1['獎項'].unique()
    #1.分析獲獎總人數
    xiexiao['參賽隊伍']=len(xiexiao1)
    #totalUniv[university_list[3]]=xiexiao
    #totalUniv[university_list[i]]=xiexiao
    #2.分析該學校的各個賽題完成情況
    #2.1.選做A題的情況
    #xiexiao1[xiexiao1['題號']=='A']['獎項'].value_counts(ascending=True) #返回A賽題對應的獲獎情況
    #2.2.六道賽題各自獲獎情況一覽表
    """
    zhou=[1,2,4,5],zhou[-1],zhou[:-1]
    """
    timu={}#存放六道賽題各自對應的獲獎情況
    sum_prize1=0
    award_prize=0
    for ii in range(len(saiti_list)):
        #print(saiti_list[ii])
        #things=things.index
        #必須對things進行初始化,不然有的學校沒有一等獎things[0]就錯位了,就出錯了.
        things=xiexiao1[xiexiao1['題號']==saiti_list[ii]]['獎項'].value_counts(ascending=True)
        #發現同濟大學有B,但是B題目沒有一等獎
        #things=xiexiao1[xiexiao1['題號']==saiti_list[ii]]['獎項'].value_counts(ascending=True)
        ##賦初值,因爲每個獎不一定都有.
        one_rate1=0
        two_rate1=0
        three_rate1=0
        non_rate1=0
        prized_rate1=0
        try:
            #一等獎隊伍數
            try:
                if ~things[things.index=='一等獎'].empty:
                    #print('1')
                    one_prize1=things[things.index=='一等獎'] #type(one_prize1)=Series
                    if len(one_prize1)==0:
                        one_prize1=0
                    elif len(one_prize1)==1:
                        #one_prize1=one_prize1.values[0,0] #將Series轉換爲二維數組
                        one_prize1=list(one_prize1)[0] #將Series轉換爲list在取值也可以
                else:
                    one_prize1=0
            except  :
                pass
            finally:
                print('one_prize1出錯啦！！！！！！！！！！！')    
            #二等獎人數
            try:
                if ~things[things.index=='二等獎'].empty:
                    two_prize1=things[things.index=='二等獎']
                    if len(two_prize1)==0:
                        two_prize1=0
                    elif len(two_prize1)==1:
                        #one_prize1=one_prize1.values[0,0] #將Series轉換爲二維數組
                        two_prize1=list(two_prize1)[0] #將Series轉換爲list在取值也可以
                else:
                    two_prize1=0
            except  :
                pass
            finally:
                print('two_prize1出錯啦！！！！！！！！！！！')  
            #三等獎隊伍數
            try:
                if ~things[things.index=='三等獎'].empty:
                    three_prize1=things[things.index=='三等獎']
                    if len(three_prize1)==0:
                        three_prize1=0
                    elif len(three_prize1)==1:
                        #one_prize1=one_prize1.values[0,0] #將Series轉換爲二維數組
                        three_prize1=list(three_prize1)[0] #將Series轉換爲list在取值也可以
                else:
                    three_prize1=0
            except  :
                pass
            finally:
                print('three_prize1出錯啦！！！！！！！！！！！')
            #成功參與獎隊伍數===未獲獎人數
            try:
                if ~things[things.index=='成功參與獎'].empty:
                    non_prize1=things[things.index=='成功參與獎']
                    if len(non_prize1)==0:
                        non_prize1=0
                    elif len(non_prize1)==1:
                        #one_prize1=one_prize1.values[0,0] #將Series轉換爲二維數組
                        non_prize1=list(non_prize1)[0] #將Series轉換爲list在取值也可以
                else:
                    non_prize1=0
            except  :
                pass
            finally:
                print('non_prize1出錯啦！！！！！！！！！！！')
            #獲獎隊伍總數
            award_prize=sum(things[:-1])
            #某道賽題的參賽總隊伍數
            sum_prize1=sum(things)
            #一等獎隊伍與該賽題參賽隊伍總數的佔比
            one_rate1=one_prize1/sum_prize1
            #二等獎隊伍與該賽題參賽隊伍總數的佔比
            two_rate1=two_prize1/sum_prize1
            #三等獎隊伍與該賽題參賽隊伍總數的佔比
            three_rate1=three_prize1/sum_prize1
            #未獲獎隊伍與該賽題參賽隊伍總數的佔比
            non_rate1=non_prize1/sum_prize1
            #獲獎隊伍與該賽題參賽隊伍總數的佔比
            prized_rate1=award_prize/sum_prize1
            timu[saiti_list[ii]]={
                    '一等獎隊伍數':one_prize1,
                    '一等獎獲獎比率':one_rate1,
                    '二等獎隊伍數':two_prize1,
                    '二等獎獲獎比率':two_rate1,
                    '三等獎隊伍數':three_prize1,
                    '三等獎獲獎比率':three_rate1,
                    '成功參與獎隊伍數':non_prize1,'未獲獎比率':non_rate1,
                    '獲獎隊伍數':award_prize,'獲獎比率':prized_rate1}
            #del things
        except  :
            pass
        #finally:
        #     print('出錯啦！！！！！！！！！！！')
    #3.獲獎總人數
    try:
        total_queue=0
        for i1 in range(len(timu)):
            try:
                total_queue+=timu[saiti_list[i1]]['獲獎隊伍數']
            except:
                continue
        xiexiao['獲獎總隊伍數']=total_queue
    except:
            pass
    #4.未獲獎總人數
    try:
        un_num=0
        for i1 in range(len(timu)):
            try:
                un_num+=timu[saiti_list[i1]]['成功參與獎隊伍數']
            except:
                continue
        xiexiao['未獲獎總隊伍數']=un_num
    except:
            pass
    #5.某賽題獲獎情況本質上爲一個list=[]對象
    try:
        rate_list={}
        for i1 in range(len(timu)):
            rate_list[saiti_list[i1]]=timu[saiti_list[i1]]['獲獎比率']
        xiexiao['學校各題獲獎比率']=rate_list
    except:
            pass
    #5.學校各道賽題完成獲獎情況
    try:
        xiexiao['學校各題獲獎明細']=timu
    except:
            pass
    #5.學校獲獎比
    try:
        xx_rate=total_queue/len(xiexiao1) #學校的參與競賽總人數
        xiexiao['學校獲獎比']=xx_rate
    except:
            pass
    #totalUniv.append(xiexiao)
    totalUniv[university_list[i]]=xiexiao
    del xiexiao1
    
#保存字典數據:使用DataFrame
import pandas as pd
data=pd.DataFrame(totalUniv,columns=totalUniv.keys()).T
columns_name=data.columns.tolist()
#各列數值不變的條件下來重命名各列
#data.columns=[['參賽隊伍', '學校各題獲獎明細', '學校各題獲獎比率', '學校名稱', '學校獲獎比', '未獲獎總隊伍數', '獲獎總隊伍數']]
#各列隨着名稱先後順序發生位置變化
data=pd.DataFrame(totalUniv,columns=totalUniv.keys()).T
#重新指定列的順序
data=data[['學校名稱','參賽隊伍', '獲獎總隊伍數', '未獲獎總隊伍數','學校各題獲獎明細', '學校各題獲獎比率',  '學校獲獎比']]
#data[data['學校名稱']=='XX大學']
data.to_csv('E:/jpzhou.csv',index=False)

這裏由宏觀到微觀鋪開整個數據結構的組織結果：
A.宏觀:

B.微觀:xuexiao1對象的展開

C.xuexiao1對象中的"學校各題獲獎明細"展開

5.統計shanghai地區大學的參賽情況
····5.1.統計shanghai地區大學的參賽情況

#按照參賽人數對字典進行排序
join_party={}
for i in range(len(university_list)):
#for i in range(5):
    #print(university[university_list[0]]) #university爲字典,學校名稱爲key
    try:
        xiexiao1=totalUniv[university_list[i]]
        num=int(xiexiao1['參賽隊伍'])
        join_party[str(university_list[i])]=num
        print(xiexiao1)
    except:
        continue
univ_totalnum=list(sorted(join_party.items(),key=lambda x:x[1],reverse=True)) #默認升序,True爲降序.
#上海各個高效參賽隊伍直方圖
#篩選出上海的高校
shanghai_univ=[]
for i in range(len(univ_totalnum)):
    for item in ['上海','華東','東華','同濟','復旦','解放軍第二軍醫']:
        if item in univ_totalnum[i][0]:
            shanghai_univ.append(univ_totalnum[i])
        else:
            continue
#刪除離羣點非上海的高校
del shanghai_univ[9]  #刪除中國石油大學(華東)---青島
del shanghai_univ[12] #華東交通大學----江西  
#獲得上海高校列表34所
#畫出直方圖
import matplotlib.pyplot as plt
plt.subplots(figsize=(10,6))
plt.rcParams['font.sans-serif'] = ['SimHei']  #用來顯示中文
plt.bar(range(len(shanghai_univ)),[shanghai_univ[i][1] for i in range(len(shanghai_univ))],color='blue',align='center')
plt.title("上海各高校2018年'華爲杯'全國研究生數學建模競賽參賽隊伍直方圖")
plt.xticks(range(len(shanghai_univ)),[shanghai_univ[i][0] for i in range(len(shanghai_univ))],rotation=90)
plt.xlim([-1,len(shanghai_univ)])
plt.xlabel("上海高校")
plt.ylabel("隊伍數")
plt.tight_layout()
plt.show()            
shanghai_university=shanghai_univ
type(shanghai_university[0][0])
type(shanghai_university[0][1])

shanghai_university=shanghai_univ
type(shanghai_university[0][0])
type(shanghai_university[0][1])


#將上海高校參賽數據入數據庫保存
import sqlite3
conn=sqlite3.connect('E:/代碼練習區256/MathModel/cmath2018.sqlite')
curs=conn.cursor()
#conn.close()
#在Python中一個分號算是一條語句,curs.execute(sql(i))只執行一條語句
curs.execute("drop table if EXISTS unives_shanghai");
#curs.close()
curs.execute("create table unives_shanghai(uid varchar(10) PRIMARY KEY,univ_name varchar(30),groupe_num int)")
#curs.execute("insert into unives_shanghai(uid,univ_name,groupe_num) values('123456','中國科學技術大學',240)") #% ('123456','中國科學技術大學',240))

id1='10247'+str(1)
name1=shanghai_university[1][0]
num1=shanghai_university[1][1]
#print("統計的數學===(%s,%s,%d)" % (id1,name1,num1))
#curs.execute("insert into unives_shanghai(uid,univ_name,groupe_num) values('%s','%s','%d')" % (id1,name1,num1)) #% ('123456','中國科學技術大學',240))

curs.execute("select * from unives_shanghai")
df1=curs.fetchall()

#for i in range(2,len(shanghai_university)):
for i in range(len(shanghai_university)):
    try:
        curs.execute("insert into unives_shanghai(uid,univ_name,groupe_num) values('%s','%s','%d')" % ('10247'+str(i),shanghai_university[i][0],shanghai_university[i][1]))
    except Exception as ex:  #異常的拋出
        print("Exception: ", str(ex))
        pass

curs.execute("select * from unives_shanghai")
df1=curs.fetchall()
#挑選出來上海地區參賽隊伍數>=100的學校
curs.execute("select * from unives_shanghai where groupe_num>=100")
df1=curs.fetchall()

註釋1：
insert錯誤
curs.execute(“insert into unives_shanghai(univ_name,groupe_num) values(%s,%d)” % (‘zhonguo’,240))
OperationalError: no such column: zhonguo
解決辦法： values中%s需要打單冒號’ ‘或者雙引號" "。
curs.execute("insert into unives_shanghai(uid,univ_name,groupe_num) values(’%s’,’%s’,’%d’)" % (id1,name1,num1)) #% (‘123456’,‘XX大學’,240))

····5.2.統計shanghai地區部分大學的參賽獲獎情況

#篩選出來上海各個高校的獲獎情況
shanghai_get={}
for i in range(len(shanghai_university)):
    shanghai_get[shanghai_university[i][0]]=totalUniv[shanghai_university[i][0]]
#畫出獲獎高校獲獎隊伍數直方圖
#排序前    
import matplotlib.pyplot as plt
plt.subplots(figsize=(10,6))
plt.rcParams['font.sans-serif'] = ['SimHei']  #用來顯示中文
#for i in shanghai_get:
#    print(i)
plt.bar(range(len(shanghai_get)),[shanghai_get[i]['獲獎總隊伍數'] for i in shanghai_get],color='blue',align='center')
plt.title("上海各高校2018年'華爲杯'全國研究生數學建模競賽獲獎隊伍直方圖")
plt.xticks(range(len(shanghai_get)),[shanghai_get[i]['學校名稱'] for i in shanghai_get],rotation=90)
plt.xlim([-1,len(shanghai_get)])
plt.xlabel("上海高校")
plt.ylabel("獲獎隊伍數")
plt.tight_layout()
plt.show() 
#排序後:數據複雜不好弄,單獨取出來再做分析,簡化操作過程
namename={}
for i in shanghai_get:
    namename[i]=shanghai_get[i]['獲獎總隊伍數']
zhouzhou=sorted(namename.items(),key=lambda x:x[1],reverse=True)
import matplotlib.pyplot as plt
plt.subplots(figsize=(10,6))
plt.rcParams['font.sans-serif'] = ['SimHei']  #用來顯示中文
plt.bar(range(len(zhouzhou)),[zhouzhou[i][1] for i in range(len(zhouzhou))],color='blue',align='center')
plt.title("上海各高校2018年'華爲杯'全國研究生數學建模競賽獲獎隊伍直方圖")
plt.xticks(range(len(zhouzhou)),[zhouzhou[i][0] for i in  range(len(zhouzhou))],rotation=90)
plt.xlim([-1,len(zhouzhou)])
plt.xlabel("上海高校")
plt.ylabel("獲獎隊伍數")
plt.tight_layout()
plt.show()
import pandas as pd
data2=pd.DataFrame(shanghai_get,columns=shanghai_get.keys()).T
columns2=data2.columns.tolist()
data2=data2[[ '學校名稱','參賽隊伍', '獲獎總隊伍數', '未獲獎總隊伍數', '學校獲獎比', '學校各題獲獎比率']]
data2.to_csv('E:/上海高校數模獲獎_data.csv',index=False)

A.排序前：

B.排序後：

備註2：上圖僅節選了部分代表性高校做展示，另外爲方便數據展示，對高校獲獎率*1000，滬上各個高校的實際獲獎率=圖上獲獎率數值/1000。

5.3.統計全國的情況

#全國的情況
shouzhou=sorted(join_party.items(),key=lambda x:x[1],reverse=True)
import pandas as pd
data2=pd.DataFrame(shouzhou,columns=['學校','參賽隊伍數'])
columns2=data2.columns.tolist()
data2.to_csv('E:/全國高校數模參賽人數_data.csv',index=True)
#全國有實力高效的獲獎情況
import pandas as pd
data2=pd.DataFrame([totalUniv[i] for i in totalUniv],index=totalUniv.keys())
columns2=data2.columns.tolist()
#指定DataFrame各列的順序
data2=data2[['學校名稱', '參賽隊伍', '獲獎總隊伍數','未獲獎總隊伍數', '學校各題獲獎比率', '學校獲獎比']]
#data2.reindex(range(len(data2.index.tolist()))) #直接傳入想要的新index即可。但是很多東西沒了
data2.to_csv('E:/全國數模獲獎高校戰果統計_data.csv',index=False)

備註3：波峯部分都是參賽人數較多的院校。
備註4：

獲獎率=該校獲獎隊伍數/該校參賽總隊伍數，獲獎率依然是一個學校整體實力的表徵，儘管參賽人數少，可能獲獎率高，一定程度上參賽隊伍數衆多的情況下，某個學校依然表現出整體的獲獎率超過50%，不得不說這個學校整體學生的水平是值得點讚的！

6.參賽人數的統計

#大致可以參考如下思路來嘗試完成
mouxiaoTotalnum=0
for i in range(len(data_all)):
	#三個隊員均來自本校
	if data_all[i]['隊長所在單位']=='XX大學')&
                                    (data_all[i]['第一隊友所在單位']=='XX大學')&
                                    (data_all[i]['第二隊友所在單位']=='XX大學')):
               mouxiaoTotalnum+=3   
         #僅兩個隊員均來自本校
	elif ((data_all[i]['隊長所在單位']=='XX大學')&
                                    (data_all[i]['第一隊友所在單位']=='XX大學')) or 
              ((data_all[i]['第一隊友所在單位']=='XX大學')&
               (data_all[i]['第二隊友所在單位']=='XX大學'))   or
                 ((data_all[i]['隊長所在單位']=='XX大學') &
                                    (data_all[i]['第二隊友所在單位']=='XX大學')):
               mouxiaoTotalnum+=2  
         #僅一個隊員均來自本校
        elif （data_all[i]['隊長所在單位']=='XX大學') or
                                    (data_all[i]['第一隊友所在單位']=='XX大學')  or
                                    (data_all[i]['第二隊友所在單位']=='XX大學'):
               mouxiaoTotalnum+=1

7.每個大學"答題明細"對象挖掘分析
以同濟大學和SMU大學爲例。


#繪製SMU大學和同濟大學的答題情況
"""
數據結構設計:
item\賽題 A  B  C  D  E  F 
1   A1    B1    C1    D1    E1    F1  
2   A2    B2    C2    D2    E2    F2  
3   A3    B3    C3    D3    E3    F3  
4   A4    B4    C4    D4    E4    F4  
5   A5    B5    C5    D5    E5    F5  
6   A6    B6    C6    D6    E6    F6  
7   A7    B7    C7    D7    E7    F7  
8   A8    B8    C8    D8    E8    F8  
9   A9    B9    C9    D9    E9    F9  
10  A10   B10   C10   D10   E10   F10  
11  A11   B11   C11   D11   E11   F11  

"""
#知識點:
#1.使用矩陣(Array)的轉置,np.Array().T
#2.tuple/List的轉置使用列表的解析式
saiti_list=['A','B','C','D','E','F']
zhou111=[]
for i in range(6):
    shou=[]
    for j in range(11):
        shou.append(saiti_list[i]+str(j+1))
    zhou111.append(shou)
"""
['A1', 'A2', 'A3', 'A4', 'A5', 'A6', 'A7', 'A8', 'A9', 'A10', 'A11']
['B1', 'B2', 'B3', 'B4', 'B5', 'B6', 'B7', 'B8', 'B9', 'B10', 'B11']
['C1', 'C2', 'C3', 'C4', 'C5', 'C6', 'C7', 'C8', 'C9', 'C10', 'C11']
['D1', 'D2', 'D3', 'D4', 'D5', 'D6', 'D7', 'D8', 'D9', 'D10', 'D11']
['E1', 'E2', 'E3', 'E4', 'E5', 'E6', 'E7', 'E8', 'E9', 'E10', 'E11']
['F1', 'F2', 'F3', 'F4', 'F5', 'F6', 'F7', 'F8', 'F9', 'F10', 'F11']
"""
#將list/tuple做轉置
grid = [[row[i] for row in zhou111] for i in range(len(zhou111[0]))]  
"""
['A1', 'B1', 'C1', 'D1', 'E1', 'F1']
['A2', 'B2', 'C2', 'D2', 'E2', 'F2']
['A3', 'B3', 'C3', 'D3', 'E3', 'F3']
['A4', 'B4', 'C4', 'D4', 'E4', 'F4']
['A5', 'B5', 'C5', 'D5', 'E5', 'F5']
['A6', 'B6', 'C6', 'D6', 'E6', 'F6']
['A7', 'B7', 'C7', 'D7', 'E7', 'F7']
['A8', 'B8', 'C8', 'D8', 'E8', 'F8']
['A9', 'B9', 'C9', 'D9', 'E9', 'F9']
['A10', 'B10', 'C10', 'D10', 'E10', 'F10']
['A11', 'B11', 'C11', 'D11', 'E11', 'F11']
"""
#SMU_data1=totalUniv[university_list[77]]  #同濟大學3,上海海事大學77.
SMU_data1=totalUniv[university_list[3]]
MingXi=SMU_data1['學校各題獲獎明細']
huizongTable=[]
saiti_list=['A','B','C','D','E','F']
mixname=MingXi[saiti_list[i]].keys()
#指定按照這個順序來實現信息抽取
itemlist=['一等獎隊伍數','一等獎獲獎比率','二等獎隊伍數',  '二等獎獲獎比率',  '三等獎隊伍數', '三等獎獲獎比率','獲獎隊伍數','獲獎比率','成功參與獎隊伍數', '未獲獎比率']
len(itemlist)
renlist=['獲獎隊伍數','成功參與獎隊伍數']
for i in range(len(saiti_list)):
    item=MingXi[saiti_list[i]] #取到每一道題的作答情況
    shou=[]
    #for j in range(10):
    #    shou.append(item[itemlist[j]])
    item1=item[itemlist[0]] #一等獎隊伍數
    shou.append(item1)
    item2=item[itemlist[1]]*100 #一等獎獲獎比率,爲方便可視化這裏*100
    shou.append(item2)
    item3=item[itemlist[2]] #二等獎隊伍數
    shou.append(item3)
    item4=item[itemlist[3]]*100 #二等獎獲獎比率
    shou.append(item4)
    item5=item[itemlist[4]] #三等獎隊伍數
    shou.append(item5)
    item6=item[itemlist[5]]*100 #三等獎獲獎比率
    shou.append(item6)
    item7=item[itemlist[6]] #獲獎隊伍數
    shou.append(item7)
    item8=item[itemlist[7]]*100 #獲獎比率
    shou.append(item8)
    item9=item[itemlist[8]] #成功參與獎隊伍數 
    shou.append(item9)
    item10=item[itemlist[9]]*100 #未獲獎比率
    shou.append(item10)
    zongren=item[renlist[0]]+item[renlist[1]]
    shou.append(zongren)
    huizongTable.append(shou)
#將彙總表做轉置
#ScoreTable= [[row[i] for row in huizongTable] for i in range(len(huizongTable[0]))]  
ScoreTable=np.array(huizongTable).T  #轉換成爲numpy.array()後直接複製到Excel中處理分析即可
#空白記事本中替換無關的[,],',等等,換行頂格寫,直接粘貼到Excel可以識別自動填充cell。


def Audit_Univ(output_path,univ_index):
    #SMU_data1=totalUniv[university_list[3]]
    SMU_data1=totalUniv[university_list[univ_index]]
    MingXi=SMU_data1['學校各題獲獎明細']
    huizongTable=[]
    saiti_list=['A','B','C','D','E','F']
    #mixname=MingXi[saiti_list[i]].keys()
    #指定按照這個順序來實現信息抽取
    itemlist=['一等獎隊伍數','一等獎獲獎比率','二等獎隊伍數',  '二等獎獲獎比率',  '三等獎隊伍數', '三等獎獲獎比率','獲獎隊伍數','獲獎比率','成功參與獎隊伍數', '未獲獎比率']
    len(itemlist)
    renlist=['獲獎隊伍數','成功參與獎隊伍數']
    for i in range(len(saiti_list)):
        item=MingXi[saiti_list[i]] #取到每一道題的作答情況
        shou=[]
        #for j in range(10):
        #    shou.append(item[itemlist[j]])
        item1=item[itemlist[0]] #一等獎隊伍數
        shou.append(item1)
        item2=item[itemlist[1]]*100 #一等獎獲獎比率,爲方便可視化這裏*100
        shou.append(item2)
        item3=item[itemlist[2]] #二等獎隊伍數
        shou.append(item3)
        item4=item[itemlist[3]]*100 #二等獎獲獎比率
        shou.append(item4)
        item5=item[itemlist[4]] #三等獎隊伍數
        shou.append(item5)
        item6=item[itemlist[5]]*100 #三等獎獲獎比率
        shou.append(item6)
        item7=item[itemlist[6]] #獲獎隊伍數
        shou.append(item7)
        item8=item[itemlist[7]]*100 #獲獎比率
        shou.append(item8)
        item9=item[itemlist[8]] #成功參與獎隊伍數 
        shou.append(item9)
        item10=item[itemlist[9]]*100 #未獲獎比率
        shou.append(item10)
        zongren=item[renlist[0]]+item[renlist[1]]
        shou.append(zongren)
        huizongTable.append(shou)
    #將彙總表做轉置
    #ScoreTable= [[row[i] for row in huizongTable] for i in range(len(huizongTable[0]))]  
    ScoreTable=np.array(huizongTable).T
    #答案拼接方式
    
    output_path1=output_path+'2018華爲杯數學建模成績_'+university_list[univ_index]+'.csv'
    import pandas as pd
    index_list=[]
    for i in range(len(itemlist)):
        index_list.append(itemlist[i])
    index_list.append('參賽人數')
    data_univ=pd.DataFrame(ScoreTable,columns=saiti_list,index=index_list)
    data_univ.to_csv(output_path1)
#統計數據輸出
outpath_audit='E:/2018年華爲杯數學建模分析彙總/audit1112/'
Audit_Univ(outpath_audit,3)
#生成所有參賽院校的成績報表(然後在Excel表格中可以輕鬆地操作這些數據---散點圖、折線圖、直方圖、餅圖等等)
for i in range(len(university_list)):
    Audit_Univ(outpath_audit,i)

7.1.運行之後的表數據如下：

2018年華爲杯SMU數學建模完成情況一覽表						
						
······明細··	A	B	C	D	E	F
一等獎隊伍數	0	0	0	0	2	1
一等獎獲獎比率	0	0	0	0	6.66667	2.43902
二等獎隊伍數	0	2	16	0	5	7
二等獎獲獎比率	0	4.87805	15.3846	0	16.6667	17.0732
三等獎隊伍數	1	16	23	4	11	8
三等獎獲獎比率	8.33333	39.0244	22.1154	57.1429	36.6667	19.5122
獲獎隊伍數	1	18	39	3	18	16
獲獎比率	   8.33333	43.9024	37.5	42.8571	60	39.0244
成功參與獎隊伍數	11	23	65	3	12	25
未獲獎比率 	91.6667	56.0976	62.5	42.8571	40	60.9756
參賽人數	··12	41	104	6	30	41
						
						
						
						
2018年華爲杯同濟大學數學建模完成情況一覽表						
						
·····明細	A	B	C	D	E	F
一等獎隊伍數	1	0	1	1	2	1
一等獎獲獎比率	5	0	0.444444	2.32558	3.7037	0.763359
二等獎隊伍數	8	22	69	13	12	33
二等獎獲獎比率	40	20.9524	30.6667	30.2326	22.2222	25.1908
三等獎隊伍數	6	20	72	10	15	37
三等獎獲獎比率	30	19.0476	32	23.2558	27.7778	28.2443
獲獎隊伍數	12	42	142	24	29	71
獲獎比率	60	40	63.1111	55.814	53.7037	54.1985
成功參與獎隊伍數	5	63	83	19	25	60
未獲獎比率 	25	60	36.8889	44.186	46.2963	45.8015
參賽人數	17	105	225	43	54	131

7.2.將生成的.csv文件打開可以在Excel中直接做分析量化，在此不再贅述。如:
2018華爲杯數學建模成績_同濟大學.csv
2018華爲杯數學建模成績_SUM大學.csv
部分可視化分析效果如下：
7.2.1.兩個學校6道賽題完成情況一覽：
A.同濟大學:

B.SMU大學：

7.2.2.兩個學校6道賽題一等獎情況一覽：
A.同濟大學:

B.SMU大學：

7.2.3.高校數模戰鬥力排行榜(取戰鬥力前100名高校)
高校戰鬥力由各個等次的獎做加權求和。
一等獎權重：one_weight=0.3，二等獎權重：two_weight=0.17，
三等獎權重：three_weight=0.09，成功參與獎權重：canyu_weight=0.02

iter_zhanli={}
def Audit_Univ(output_path,univ_index):
    #SMU_data1=totalUniv[university_list[3]]
    SMU_data1=totalUniv[university_list[univ_index]]
    MingXi=SMU_data1['學校各題獲獎明細']
    huizongTable=[]
    saiti_list=['A','B','C','D','E','F']
    #mixname=MingXi[saiti_list[i]].keys()
    #指定按照這個順序來實現信息抽取
    itemlist=['一等獎隊伍數','一等獎獲獎比率','二等獎隊伍數',  '二等獎獲獎比率',  '三等獎隊伍數', '三等獎獲獎比率','獲獎隊伍數','獲獎比率','成功參與獎隊伍數', '未獲獎比率']
    len(itemlist)
    renlist=['獲獎隊伍數','成功參與獎隊伍數']
    zhanlili=0  #統計每個學校總的戰鬥力
    for i in range(len(saiti_list)):
        try:
            item=MingXi[saiti_list[i]] #取到每一道題的作答情況
        except:
            continue
        shou=[]
        #戰鬥力值矩陣
        zhandouli=0
        one_prizeli=0
        one_weight=0.3
        two_prizeli=0
        two_weight=0.17
        three_prizeli=0
        three_weight=0.09
        canyu_prizeli=0
        canyu_weight=0.02
        #for j in range(10):
        #    shou.append(item[itemlist[j]])
        item1=item[itemlist[0]] #一等獎隊伍數
        one_prizeli+=item1*one_weight #一等獎戰鬥力值累計
        shou.append(item1)
        item2=item[itemlist[1]]*100 #一等獎獲獎比率,爲方便可視化這裏*100
        shou.append(item2)
        item3=item[itemlist[2]] #二等獎隊伍數
        two_prizeli+=item3*two_weight #二等獎戰鬥力值累計
        shou.append(item3)
        item4=item[itemlist[3]]*100 #二等獎獲獎比率
        shou.append(item4)
        item5=item[itemlist[4]] #三等獎隊伍數
        three_prizeli+=item5*three_weight #三等獎戰鬥力值累計
        shou.append(item5)
        item6=item[itemlist[5]]*100 #三等獎獲獎比率
        shou.append(item6)
        item7=item[itemlist[6]] #獲獎隊伍數
        shou.append(item7)
        item8=item[itemlist[7]]*100 #獲獎比率
        shou.append(item8)
        item9=item[itemlist[8]] #成功參與獎隊伍數
        canyu_prizeli+=item9*canyu_weight
        shou.append(item9)
        item10=item[itemlist[9]]*100 #未獲獎比率
        shou.append(item10)
        zongren=item[renlist[0]]+item[renlist[1]]
        shou.append(zongren)
        #計算每道題目貢獻出來的戰鬥力值
        zhandouli=canyu_prizeli+three_prizeli+two_prizeli+one_prizeli
        shou.append(zhandouli)
        huizongTable.append(shou)
        zhanlili+=zhandouli
    #將彙總表做轉置
    #ScoreTable= [[row[i] for row in huizongTable] for i in range(len(huizongTable[0]))]  
    ScoreTable=np.array(huizongTable).T
    #各個學校的總戰鬥力值
    iter_zhanli[university_list[univ_index]]=zhanlili
    #答案拼接方式
    output_path1=output_path+'2018華爲杯數學建模成績_'+university_list[univ_index]+'.csv'
    import pandas as pd
    index_list=[]
    for i in range(len(itemlist)):
        index_list.append(itemlist[i])
    index_list.append('參賽人數')
    index_list.append('戰鬥力值')
    #data_univ=pd.DataFrame(ScoreTable,columns=saiti_list,index=index_list)
    #data_univ.to_csv(output_path1)
#統計數據輸出
outpath_audit='E:/2018年華爲杯數學建模分析彙總/audit1112/'
#Audit_Univ(outpath_audit,3)
#生成所有參賽院校的成績報表(然後在Excel表格中可以輕鬆地操作這些數據---散點圖、折線圖、直方圖、餅圖等等)
for i in range(len(university_list)):
    Audit_Univ(outpath_audit,i)


#各個高校戰鬥力值排名,因爲緊靠獲獎人數/參賽總人數會拉低很多參賽人數多的高校的戰鬥力值的量化
#對各個高校的戰鬥力值字典進行排序(各個獎項按照權重做加和獲得)
energyli=sorted(iter_zhanli.items() ,key=lambda x:x[1],reverse=True)
import matplotlib.pyplot as plt
plt.subplots(figsize=(30,15))
numnum1=100
plt.rcParams['font.sans-serif'] = ['SimHei']  #用來顯示中文
#plt.bar(range(len(energyli)),[energyli[i][1] for i in range(len(energyli))],color='blue',align='center')
plt.bar(range(len(energyli[:numnum1])),[energyli[i][1] for i in range(numnum1)],color='blue',align='center')
plt.title("全國各高校2018年'華爲杯'全國研究生數學建模高校戰鬥力排行榜")
#plt.xticks(range(len(energyli)),[energyli[i][0] for i in  range(len(energyli))],rotation=45)
#plt.xlim([-1,len(energyli)])
plt.xticks(range(numnum1),[energyli[i][0] for i in  range(numnum1)],rotation=90)
plt.xlim([-1,numnum1])
plt.xlabel("高校名稱")
plt.ylabel("戰鬥力能量值")
plt.tight_layout()
plt.show()

8.不足
本文代碼確實較多，相比較**Jean_V**的代碼不夠簡潔。
https://blog.csdn.net/CSDN_wujian/article/details/83961212
另外，針對組隊的情況，如果是一個隊來自於三個院校，本文是給每個高校都投票一次，可能存在給某些院校多累計了隊伍數。在Jean_V的代碼中每個隊伍只投票一次。

2018年"華爲杯"數學建模獲獎名單挖掘分析

實現過程

Python3各種數據結構下的排序及去重彙總

Kaggle競賽中最終成爲0.3%的獲獎經驗

恐怖襲擊等級預測量化與ARMIA時間序列建模的例子

pd.read_excel()練習

Chrome71中HTTP Graph Collector Chrome插件離線安裝方法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結