千万级敏感词过滤设计

编程汇总 • 2025-02-06 15:17 • 阅读 59

千万级敏感词过滤设计需求分析系统有千万级的禁词需要去过滤当中包含人名特殊符号组成的语句网址单字组合成的敏感词等等初步设计 1 解决千万级禁词存储及查找问题 2 解决被过滤文本内容过多问题详细设计 1 采用 ES 作为禁词库千万级数据检索时间在毫秒级满足需求 2 不适用分词器需要完整匹配分词后很多词都是合法的组合之后才是敏感词 3 被过滤文本内容分词不完整

需求分析

系统有千万级的禁词需要去过滤

当中包含人名 特殊符号组成的语句 网址 单字组合成的敏感词 等等

初步设计

	1.解决千万级禁词存储及查找问题
2.解决被过滤文本内容过多问题

详细设计

	1.采用ES作为禁词库 千万级数据检索时间在毫秒级满足需求
2.不适用分词器需要完整匹配 分词后很多词都是合法的 组合之后才是敏感词
3.被过滤文本内容分词不完整 利用IK分词器分词结果不适合现在的业务场景
	只能采用字符串分割的方式来匹配ES库
	带来的问题就是效率低下同步多线程下千字也需要将近4秒
	考虑采用异步模式来解决大数据量需要审核状态

编程小号

2025年PyTorch实现ResNet18

上一篇 2025-02-18 15:06

java数组去重_JAVA数组去重常用方法

下一篇 2025-03-10 13:46

2025年PyTorch实现ResNet18 1737030586
Mybatis分页插件使用的详解[通俗易懂] 1737030576
2025年java分前端后端吗_Java Web属于前端还是后端 1737030567
2025年Vue高阶组件_高阶组件的承上启下 1737030557
2025年Linux内核版本_linux最新版本是多少 1737030551
八数码问题及A-算法 1737030541
如何使用永久白嫖office365_mybatis 注解 1737030530
2025年pycharm导出html_python怎么保存代码 1737030524
散列函数「建议收藏」 1737030522
java数组去重_JAVA数组去重常用方法 1737030593
2025年学生成绩管理系统-C语言(附源码)[通俗易懂] 1737030609
2025年遗传算法做多目标优化_python 遗传算法 1737030631
2025年Int8，Int16，Int32，Int64 有什么不同呢？ 1737030657
2025年ntp网络时间协议_ntp网络时间协议特性 1737030672
python计算最大公约数和最小公倍数_python怎么求最大公约数和最小公倍数 1737030674
2025年Python：whl文件是神？如何安装whl文件？ 1737030687
小波去噪MATLAB代码「建议收藏」 1737030689
futex验证_fulvic 1737030696

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
如需转载请保留出处：https://bianchenghao.cn/hz/143082.html

千万级敏感词过滤设计

需求分析

初步设计

详细设计

相关推荐