首页 > 鸢尾花

knn算法鸢尾花实验报告


⑴实验报告应该怎么写?

将实验结果和分析表述如下:

1.实验名称和学号:

使用尽可能简洁的语言来传达实验内容。 例如,要审查特定的程序、法律或算法,可以写为“要验证什么”、“要分析什么”等。

2.实验日期和地点:

例如,2020年4月25日,物理实验室。

3.实验目的:

目的应明确,从理论上验证定理、公式和算法,使实验者对实验设备知识和程序调试方法有深入、系统的了解,掌握实际使用实验设备的知识和程序调试方法。 一般来说,需要明确是验证性实验还是设计性实验,是创新性实验还是综合性实验。

4.实验设备(环境)及要求:

实验所需使用的实验材料、药物及环境要求。

5.实验原理:

这里解释一下实验的主要原理。

6.实验内容:

这是实验报告中极其重要的内容。 抓住重点,可以从理论和实践两个方面来考虑。 这部分应说明将采用什么原理、规律、算法或操作方法来进行实验。 详细的理论计算过程。

7.实验步骤:

只写最重要的步骤,不要照搬实习说明,简明扼要。 还应绘制实验流程图(实验装置的结构示意图)并提供相关文字说明。 这样不仅节省了大量的文字描述,而且使实验报告简洁明了。


⑵KNN算法-理论篇-如何给电影进行分类

KNN算法的全称是K-NearestNeighbor,中文意思是K近邻算法。 这是一种简单而有效的基于距离的算法。

KNN算法既可以用于分类问题,也可以用于回归问题。

假设我们收集电影数据,包括电影名称、打斗次数、接吻次数、电影类型,如下:

如你所见,电影分为二。 类别,即动作片和爱情片。

如果有一部新电影A,其打斗次数和接吻次数分别为80次和7次,如何使用KNN算法对其进行对齐和排序?

上图直观地看出,动作片和爱情片的分布范围是不同的。

KNN算法是基于距离的。 其原理是:选择距离待分类数据最近的K个点,这些K点最属于哪个类别,则待分类数据属于哪个类别。 哪个类别。

因此,要确定胶片A属于哪种胶片类型,我们需要从已知的胶片样本中选择与胶片A最接近的K个点:

例如,我们选择三个点从样本来看(即K为3),那么与电影A最接近的三个点是《功夫》、《黑客帝国》和《战狼》,这三部电影都是动作片。 因此我们可以判断A片也是一部动作片。

此外,我们还需要面对两个问题:

对于点之间距离的判断,可以参考《计算机如何理解相关事物》一文。

关于K值的选择,较大或较小的K值都会对模型的训练产生负面影响。 K值较小会导致过拟合,K值较大会导致欠拟合。

因此,K值的选择一般采用交叉验证的方法。

交叉验证的思想是使用样本集中的大部分样本作为训练集,剩余部分用于预测,以检查分类模型的正确性。 一般情况下,K值都是从较小的范围内选择,并逐一尝试K值。 当模型精度最高时,这是最合适的K值。

可以得出,当KNN算法用于分类问题时,一般步骤如下:

如果我们现在有一部电影B,我们知道该电影是一种行为。 电影,我们知道这部电影是一部动作片。 电影中的吻戏次数是7,现在我想预测电影中的打斗次数?

这个问题是一个回归问题。

首先,我们看看如何根据已知数据确定距离电影B最近的K个点。

我们总是将K设置为3,已知的数据是:

根据已知的数据,我们可以画出下面的图:

J我画的图像中的一条水平线,这条线代表所有接吻数为7的电影。 下一步是找到距离这条线最近的三部动作片(K为3)。

可以看出,最接近这条水平线的三部动作片是《功夫》、《黑客帝国》和《战狼》,所以这三部影片的平均打斗次数就是我们的预测

因此,电影B中的打斗次数为:

本文主要介绍KNN算法的基本原理。 它简单易懂,并且可以处理两种分类。 问题和回归问题。

KNN算法是一种基于距离的机器学习算法,需要计算测试点与采样点之间的距离。 因此,当数据量很大时,计算量会非常大,需要大量的存储空间和计算时间。

另外,如果样本数据的分类不平衡,比如某个类别的样本很少,那么该类别的分类准确率就会很低。 这就是为什么在实际应用中必须特别注意的原因。

(本节结束。 )

推荐阅读:

决策树算法-理论-如何计算信息纯度

决策树算法-实践篇-鸢尾花和波士顿房价预测

朴素贝叶斯分类-理论篇-如何解决概率分类问题

朴素贝叶斯分类-实践章-如何从文本中传输分类

计算机如何理解事物的相关性-判断文档的相似性

返回顶部