naive bayesian classifier

原創

2020-06-01 22:01

__author__ = 'HM'

f = open('data.txt','r')
first_line = f.readline().split()
attributes = first_line[:-1]
attr_len = len(attributes)
classname = first_line[-1]
data_set_raw = []
class_label_pool = set()
attribute_discrete_pool = {}
for line in f:
    raw_data = line.split()
   # new_record = {classname:raw_data[-1]}
    new_record = {'class_label':raw_data[-1]}
    class_label_pool.add(raw_data[-1])
    for i in xrange(attr_len):
        attribute_name = attributes[i]
        new_record[attribute_name] = raw_data[i]

        attribute_discrete_pool[attribute_name]=attribute_discrete_pool.get(attribute_name,set()).union(set([raw_data[i]]))
    data_set_raw.append(new_record)


for d in data_set_raw:
    print d
def train_classifier(data):
    attr_value_count = {}#{'yes':{'credit_rating':{'fair':10,'excellent':30},}}
    class_value_count = {}#{'yes':10,'no':20}
    #initial attr_value_count
    for c in class_label_pool:
        attr_value_count[c]=dict()
        for a in attributes:
            attr_value_count[c][a]=dict()
            for attr_value in attribute_discrete_pool[a]:
                attr_value_count[c][a][attr_value] = 0#not Use Laplacian correction(+1)

    print attr_value_count
    #initial  class_value_count
    for c in class_label_pool:
        class_value_count[c] = 0

    for d in data:
        for a in attributes:
            attr_value_count[d['class_label']][a][d[a]] += 1
        class_value_count[d['class_label']] += 1

    return attr_value_count,class_value_count

def predict(data,dataset_len,attr_value_count,class_value_count):
    print attr_value_count
    print class_value_count
    p_c_x_table = {}
    for c in class_label_pool:
        p_c = class_value_count[c]/float(dataset_len)
        print 'pc',p_c
        p_x_c = 1
        for key in data:
            p_x_c *= attr_value_count[c][key][data[key]]/float(class_value_count[c])

            print 'p_x_c',p_x_c,data[key],attr_value_count[c][key][data[key]]
        p_c_x = p_x_c*p_c
        p_c_x_table[c] = p_c_x
    print p_c_x_table

d = {'age':'<=30','income':'medium','student':'yes','credit_rating':'fair'}

predict(d,len(data_set_raw),*train_classifier(data_set_raw))

dataset:

age income student credit_rating buys_compute
<=30 high no fair no
<=30 high no excellent no
31…40 high no fair yes
>40 medium no fair yes
>40 low yes fair yes
>40 low yes excellent no
31…40 low yes excellent yes
<=30 medium no fair no
<=30 low yes fair yes
>40 medium yes fair yes
<=30 medium yes excellent yes
31…40 medium no excellent yes
31…40 high yes fair yes
>40 medium no excellent no

備註：表示數據的方法有點麻煩（各種字典套字典。。。），找個方法優化之。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

naive bayesian classifier

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

Dokcer部署Kafka集羣

nodejs學習06——小案例

.py to .exe (by py2exe)

主題模型是什麼、工作原理【基礎概念】※※※※※

Pearson+Cosine Similarity+K-Nearest Neighbor 代碼

LDA 【介紹】※※※

Weighted Slope One （python實現）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結