KNN分类器实战

KNN分类器原理

令 $D$ 为一个包含 $n$ 个点 $x_{i}\in R^{d}$ 的数据集，其中 $D_{i}$ 为类标签为 $c_i$ 的点的子集， $n_{i}=|D_i|$ 。

现给定一个测试点 $x_{j}\in R^{d}$ 以及需要考虑的邻居节点数为 $K$ ，令 $r$ 代表从 $x_j$ 到它的第 $K$ 个最近邻居的距离。

根据这个距离我们可以画出一个以测试点 $x_j$ 为中心，半径为 $r$ 的 $d$ 维超球体，表示为
$B_{d}\left( x_{j},r\right) =\left\{ x_{i}\in D\mid \delta \left( x_{j},x_{m}\right) \leqslant r\right\}$ 本式中 $\delta \left( x_{j},x_{m}\right)$ 表示测试点 $x_j$ 到集合 $D$ 中的点 $x_m$ 的距离。我们这里选取的是欧式距离，即 $\delta \left( x_{j},x_{m}\right)=\parallel x_{j}-x_{m}\parallel_{2}$ 。

令 $K_i$ 表示 $x_j$ 的 $K$ 个最邻近数据中被标注为类 $c_i$ 的点的数目
$K_{i}=\left\{ x_{m}\in B_{d}\left( x_{j},r\right) \mid y_{m}=c_{i}\right\}$ 其中， $y_{m}$ 是数据点真实所属类别。
$x_j$ 处的类条件概率密度可估计为
$\hat{f} \left( x_{j}\mid c_{i}\right) =\frac{K_{i}}{V\times n_{i}}$ $V$ 是超球体体积， $\frac{K_{i}}{n_{i}}$ 表示超球体所包含的属于类别 $c_i$ 的个数与整体样本中一共类别 $c_i$ 的个数的比值。

于是我们有后验概率
$P\left( c_{i}\mid x_{j}\right) =\frac{\hat{f} \left( x_{j}\mid c_{i}\right) \times \hat{P} \left( c_{i}\right) }{\sum\nolimits^{k}_{m=1} \hat{f} \left( x_{j}\mid c_{m}\right) \times \hat{P} \left( c_{m}\right) }$ 由于 $P\left( c_{i}\mid x_{m}\right) =\hat{P} \left( c_{i}\right) =\frac{n_{i}}{n}$ ，所以
$\hat{f} \left( x_{j}\mid c_{i}\right) \times \hat{P} \left( c_{i}\right) =\frac{K_{i}}{V\times n_{i}} \times \frac{n_{i}}{n} =\frac{K_{i}}{n\times V}$ 因此后验概率为
$P\left( c_{i}\mid x_{j}\right) =\frac{\frac{K_{i}}{n\times V} }{\sum\nolimits^{k}_{m=1} \frac{K_{m}}{n\times V} } =\frac{K_{i}}{K}$ 所以 $x_j$ 的预测类为
$\hat{y_{j}} =\arg \max_{c_{i}} \left\{ P\left( c_{i}\mid x_{j}\right) \right\} =\arg \max_{c_{i}} \left\{ K_{i}\right\}$ 由于 $K$ 本身是固定的，所以上式成立，求 $x_j$ 所属类就是找到其 $K$ 个邻居中的多数类。

分类器实现

def str_column_to_int(dataset, column):
    """
    将类别转化为int型
    @dataset: 数据
    @column: 需要转化的列
    """
    class_values = [row[column] for row in dataset]
    unique = set(class_values)
    lookup = dict()
    for i, value in enumerate(unique):
        lookup[value] = i
    for row in dataset:
        row[column] = lookup[row[column]]
    print(lookup)
    return lookup

def cross_validation_split(dataset, n_folds):
    """
    使用交叉检验方法验证算法
    @dataset: 数据
    @n_folds: 想要划分的折数
    """
    dataset_split = list()
    dataset_copy = list(dataset)
    fold_size = int(len(dataset) / n_folds)   # 一个fold的大小
    for _ in range(n_folds):
        fold = list()
        while len(fold) < fold_size:
            index = randrange(len(dataset_copy))
            fold.append(dataset_copy.pop(index))            
        dataset_split.append(fold)       
    return dataset_split

def accuracy_metric(actual, predicted):
    """
    计算准确率
    @actual: 真实值
    @predicted: 预测值
    """
    correct = 0
    for i in range(len(actual)):
        if actual[i] == predicted[i]:
            correct += 1
    return correct / float(len(actual)) * 100.0

def evaluate_algorithm(dataset, algorithm, n_folds, *args):
    """
    评估使用的分类算法（基于交叉检验）
    @dataset: 数据
    @algorithm: 使用的算法
    @n_folds: 选择要划分的折数
    @*args: 根据使用的分类算法而定，在朴素贝叶斯里面不需要其他的参数
    """
    folds = cross_validation_split(dataset, n_folds)
    scores = list()
    for i in range(len(folds)):  
        train_set = np.delete(folds, i, axis=0)
#         print(train_set)        
        test_set = list()
        for row in folds[i]:
            row_copy = list(row)
            test_set.append(row_copy)
            row_copy[-1] = None
        predicted = algorithm(train_set, test_set, *args)
        actual = [row[-1] for row in folds[i]]
        accuracy = accuracy_metric(actual, predicted)
        scores.append(accuracy)
    return scores

def calculate_distance(point1, point2, length):
    """
    计算两点之间的欧式空间距离
    @point1: 数据点1
    @point2: 数据点2
    @length: 纬度数
    """
    distance = 0
    for i in range(length):
        distance += (point1[i] - point2[i])**2
    return sqrt(distance)

def get_neighbors(dataset, testpoint, k):
    """
    获取最邻近的K个邻居节点
    @dataset: 数据集
    @testpoint: 目标测试点
    @k: 需要获取的邻居数
    """
    dataset = dataset.reshape((-1,5))
    distances = []
    for i in range(len(dataset)):
        dist = calculate_distance(testpoint, dataset[i], len(testpoint)-1)
        distances.append((dataset[i], dist))   
    distances.sort(key=operator.itemgetter(1))      # 根据距离来排序
    neighbors = []

    for i in range(k):
        neighbors.append(distances[i][0])
    return neighbors

def determine_class(neighbors):
    """
    根据邻居节点类别，判断该簇应当属于哪个类别
    @neighbors: 邻居节点列表
    """
    classvotes = {}
    for i in range(len(neighbors)):
        res = neighbors[i][-1]
        if (res in classvotes):
            classvotes[res] += 1
        else:
            classvotes[res] = 1
    sortedvotes = sorted(classvotes.items(), key=operator.itemgetter(1), reverse=True)
    return sortedvotes[0][0]    # 票数最多的那一个

def KNN(train, test, args):
    """
    KNN分类器
    @train: 训练集
    @test: 测试集
    @args: 其他参数，这里是k
    """
    k = int(args['k'])
    predictions = list()
    for point in test:
        neighbors = get_neighbors(train, point, k)
        output = determine_class(neighbors)
        predictions.append(output)
    return(predictions)

使用鸢尾花数据集检验

seed(1)
filename = 'iris.csv'
dataset = pd.read_csv(filename).values
str_column_to_int(dataset, len(dataset[0])-1)
n_folds = 3
k = 5
scores = evaluate_algorithm(dataset, KNN, n_folds, {'k': k})
print('某个折上的准确率: %s' % scores)
print('算法的平均准确率: %.3f%%' % (sum(scores)/float(len(scores))))

结果为

{'Iris-versicolor': 0, 'Iris-setosa': 1, 'Iris-virginica': 2}
某个折上的准确率: [98.0, 98.0, 94.0]
算法的平均准确率: 96.667%

可视化分类结果：

def plot_clustering():
    """
    绘制相关联矩阵和结果
    """
    # 随机抽样2/3来训练，1/3来预测
    train_index = np.random.choice(range(len(dataset)), int(len(dataset)*2/3), replace=False)
    test_index = np.array(list(set(np.array([i for i in range(len(dataset))])).difference(set(train_index))))
    train = dataset[train_index]
    test = dataset[test_index]
    prediction = KNN(train, test, {'k': 3})
    result = pd.DataFrame(columns=['trained', 'sepal length', 'sepal width', 'petal length', 'petal width', 'predicted', 'class'], index=range(len(dataset)))
    result.loc[train_index, 'trained'] = 1
    result.loc[test_index, 'trained'] = 0
    result.loc[test_index, 'predicted'] = prediction
    for i in range(len(dataset)):
        result.loc[i, ['sepal length', 'sepal width', 'petal length', 'petal width', 'class']] = dataset[i]
    fig = px.scatter_matrix(result, dimensions=["sepal length", "sepal width", "petal length", "petal width", "predicted", "class"],
                            color="class", symbol="trained")
    fig.update_layout(template='none', width=1200, height=1000,
        margin=dict(l=50, r=50, t=50, b=50))
    fig.show()
plot_clustering()

随交叉检验折数和给定的簇的数量( $k$ )算法准确率的变化。

fig = make_subplots(rows=1, cols=2, subplot_titles=("Change folds", "Change cluster number"))
scores, index, acc = [], [], []
for i in range(2, 22):
    score = evaluate_algorithm(dataset, KNN, i, {'k': 3})
    scores.append(list(score))
    acc.append(sum(score)/float(len(score)))
    index.append([i for j in range(i)])
fig.append_trace(go.Scatter(x=[i + 2 for i in range(20)], y=acc,
                    mode='lines+markers',
                    name='mean'), row=1, col=1)
fig.append_trace(go.Scatter(x=sum(index, []), y=sum(scores, []),
                    mode='markers',
                    name='each'), row=1, col=1)
scores, index, acc = [], [], []
for j in range(1, 11):
    score = evaluate_algorithm(dataset, KNN, 5, {'k': j})
    scores.append(list(score))
    acc.append(sum(score)/float(len(score)))
    index.append(j)
fig.append_trace(go.Scatter(x=[i + 1 for i in range(10)], y=acc,
                    mode='lines+markers',
                    name='mean-acc'), row=1, col=2)
fig.update_layout(height=600, width=1200, template='none')
fig.update_yaxes(title_text="Accuracy", row=1, col=1)
fig.update_yaxes(title_text="Accuracy", row=1, col=2)
fig.update_xaxes(title_text="Folds Num", row=1, col=1)
fig.update_xaxes(title_text="Cluster Num", row=1, col=2)
fig.show()

机器学习算法——手动搭建KNN分类器(代码+作图)

KNN分类器实战

KNN分类器原理

分类器实现

使用鸢尾花数据集检验

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（12.A）- uSDHC eMMC启动时间(RT1170)

基于Ubuntu-22.04安装K8s-v1.28.2实验（二）使用kube-vip实现集群VIP访问

企业大模型如何成为自己数据的“百科全书”？

本地SSL证书过期输入命令在IIS自动生成

.NET周刊【5月第2期 2024-05-12】

基于Ubuntu-22.04安装K8s-v1.28.2实验（一）部署K8s

基于Ubuntu-22.04安装K8s-v1.28.2实验（三）数据卷挂载NFS（网络文件系统）

機器學習算法——手動搭建樸素貝葉斯分類器(附代碼)

新冠數據整理和簡單分析

新冠數據整理和簡單分析（三）—— 使用Anylogic進行仿真實驗

新冠數據整理和簡單分析（二）——SIR及其變種

分類變量回歸——Probit和Logit（附代碼）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結