2025年文本分类算法之–KNN算法的简介「建议收藏」

编程汇总 • 2025-09-27 23:51 • 阅读 51

文本分类算法之–KNN算法的简介「建议收藏」1 KNN 算法的简介 kNN 算法就是找到 k 个最相似的样本这些样本所在的类就是当前文档的所属的类如下图绿色圆圈表示你想分类的文本其他是已知类别的样本图中其他形状和绿色圆圈的距离代表了相似度如果 k 3 就是取 3 个最相似的文本那么 1 个蓝色框 2 红色三角被选中因为红色三角多则绿色圆圈所属的类就是红色三角所在的类如果 k 5 3 个蓝色框和 2 个红色三角选中

1、KNN算法的简介

kNN算法就是找到k个最相似的样本，这些样本所在的类，就是当前文档的所属的类。如下图：绿色圆圈表示你想分类的文本，其他是已知类别的样本。图中其他形状和绿色圆圈的距离代表了相似度。如果k = 3，就是取3个最相似的文本，那么1个蓝色框，2红色三角被选中，因为红色三角多，则绿色圆圈所属的类就是红色三角所在的类。如果k = 5，3个蓝色框和2个红色三角选中，那么就属于蓝色框所属于的类。kNN你也可以取多个类别，就是绿色圆圈既属于蓝色框，也属于红色三角所属的类别。

2、KNN算法分类的一般过程的定义

（1）样本的选择

（2）中文文本分词（工具如下：Rwordseg,LTP,Bamboo,RostCM）

（3）特征的选择（CHI，IG等）

（4）向量空间模型的构建（将文档转换成VSM，每一个特征的值是由TF-IDF计算，特征项的个数是所有文本文档集合的总体弃掉重复的单词）

（5）将预测的文本分词与样本进行计算，主要使用余弦定理进行计算如下

（6）对结果进行测试是否满足准确率

（7）如果准确率太低，可以调整样本等一些其他的措施

KNN算法的缺点，如果训练的样本过多，则容易造成内存的溢出，因此我们可以改进KNN算法。

编程小号

手机打开照相机_安卓11调用第三方相机

上一篇 2025-08-05 22:27

2025年cardboard应用_cardboard怎么用

下一篇 2025-04-15 23:51

手机打开照相机_安卓11调用第三方相机 1737002880
2025年kong组件_Kong 1737002879
OSPF路由协议_ospf协议是一种什么路由协议 1737002874
2025年windows server 2008 web服务器搭建 1737002873
2025年oracle报错注入方式_停止mysql服务的命令 1737002871
2025年Mybatis事务隔离级别「建议收藏」 1737002869
2025年Server unexpectedly closed network connection的解决 1737002860
2025年关于使用冒泡法_用冒泡法对5个数排序 1737002859
2025年解决iframe高度自适应 1737002847
2025年cardboard应用_cardboard怎么用 1737002890
2025年“word在试图打开文件时遇到错误”解决办法，亲测可用 1737002892
数据结构哈希表例题_数据结构哈希算法 1737002893
2025年SPSS聚类分析——一个案例演示聚类分…「建议收藏」 1737002894
SpringBoot整合Swagger2「建议收藏」 1737002895
剑指offer Java_工程图学基础知识点总结 1737002896
2025年dhcp option 82 接入交换机_dhcpoption怎么配置 1737002899
java的格式输入语句是_java输入输出语句是什么「建议收藏」 1737002906
2025年outputstreamwriter用法_floating power object 1737002911

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
如需转载请保留出处：https://bianchenghao.cn/hz/115810.html