knn算法鸢尾花实验报告

作者: 蒲叔昕发布: 2024-04-16 20:09:47 562阅读

⑴实验报告应该怎么写？

将实验结果和分析表述如下：

1．实验名称和学号：

使用尽可能简洁的语言来传达实验内容。例如，要审查特定的程序、法律或算法，可以写为“要验证什么”、“要分析什么”等。

2.实验日期和地点：

例如，2020年4月25日，物理实验室。

3.实验目的：

目的应明确，从理论上验证定理、公式和算法，使实验者对实验设备知识和程序调试方法有深入、系统的了解，掌握实际使用实验设备的知识和程序调试方法。一般来说，需要明确是验证性实验还是设计性实验，是创新性实验还是综合性实验。

4.实验设备（环境）及要求：

实验所需使用的实验材料、药物及环境要求。

5.实验原理：

这里解释一下实验的主要原理。

6.实验内容：

这是实验报告中极其重要的内容。抓住重点，可以从理论和实践两个方面来考虑。这部分应说明将采用什么原理、规律、算法或操作方法来进行实验。详细的理论计算过程。

7.实验步骤：

只写最重要的步骤，不要照搬实习说明，简明扼要。还应绘制实验流程图（实验装置的结构示意图）并提供相关文字说明。这样不仅节省了大量的文字描述，而且使实验报告简洁明了。

⑵KNN算法-理论篇-如何给电影进行分类

KNN算法的全称是K-NearestNeighbor，中文意思是K近邻算法。这是一种简单而有效的基于距离的算法。

KNN算法既可以用于分类问题，也可以用于回归问题。

假设我们收集电影数据，包括电影名称、打斗次数、接吻次数、电影类型，如下：

如你所见，电影分为二。类别，即动作片和爱情片。

如果有一部新电影A，其打斗次数和接吻次数分别为80次和7次，如何使用KNN算法对其进行对齐和排序？

上图直观地看出，动作片和爱情片的分布范围是不同的。

KNN算法是基于距离的。其原理是：选择距离待分类数据最近的K个点，这些K点最属于哪个类别，则待分类数据属于哪个类别。哪个类别。

因此，要确定胶片A属于哪种胶片类型，我们需要从已知的胶片样本中选择与胶片A最接近的K个点：

例如，我们选择三个点从样本来看（即K为3），那么与电影A最接近的三个点是《功夫》、《黑客帝国》和《战狼》，这三部电影都是动作片。因此我们可以判断A片也是一部动作片。

此外，我们还需要面对两个问题：

对于点之间距离的判断，可以参考《计算机如何理解相关事物》一文。

关于K值的选择，较大或较小的K值都会对模型的训练产生负面影响。 K值较小会导致过拟合，K值较大会导致欠拟合。

因此，K值的选择一般采用交叉验证的方法。

交叉验证的思想是使用样本集中的大部分样本作为训练集，剩余部分用于预测，以检查分类模型的正确性。一般情况下，K值都是从较小的范围内选择，并逐一尝试K值。当模型精度最高时，这是最合适的K值。

可以得出，当KNN算法用于分类问题时，一般步骤如下：

如果我们现在有一部电影B，我们知道该电影是一种行为。电影，我们知道这部电影是一部动作片。电影中的吻戏次数是7，现在我想预测电影中的打斗次数？

这个问题是一个回归问题。

首先，我们看看如何根据已知数据确定距离电影B最近的K个点。

我们总是将K设置为3，已知的数据是：

根据已知的数据，我们可以画出下面的图：

J我画的图像中的一条水平线，这条线代表所有接吻数为7的电影。下一步是找到距离这条线最近的三部动作片（K为3）。

可以看出，最接近这条水平线的三部动作片是《功夫》、《黑客帝国》和《战狼》，所以这三部影片的平均打斗次数就是我们的预测

因此，电影B中的打斗次数为：

本文主要介绍KNN算法的基本原理。它简单易懂，并且可以处理两种分类。问题和回归问题。

KNN算法是一种基于距离的机器学习算法，需要计算测试点与采样点之间的距离。因此，当数据量很大时，计算量会非常大，需要大量的存储空间和计算时间。

另外，如果样本数据的分类不平衡，比如某个类别的样本很少，那么该类别的分类准确率就会很低。这就是为什么在实际应用中必须特别注意的原因。

（本节结束。）