2025年布隆过滤器原理以及应用_bitmap与布隆过滤器

编程汇总 • 2025-01-24 22:01 • 阅读 10

布隆过滤器原理以及应用_bitmap与布隆过滤器1 先说下背景肯定遇到这种情况判断素在不在一个集合里面如果集合里面的素非常大这个判断过程是非常耗时的而且集合占用空间也很大 2 应用场景网页黑名单垃圾邮件过滤电话黑名单 url 去重内容推荐等 3 原理布隆过滤器实际上就是一个字节数组字节数组的值是 0 或 1 在添加素的时候对值通过多个 hash 函数的计算得到多个 0 1 然后在字节数组里面在相应的位置设置值

1.先说下背景，肯定遇到这种情况，判断元素在不在一个集合里面，如果，集合里面的元素非常大，这个判断过程是非常耗时的，而且集合占用空间也很大。

2.应用场景，网页黑名单，垃圾邮件过滤，电话黑名单，url去重，内容推荐等。

3.原理：布隆过滤器实际上就是一个字节数组，字节数组的值是0或1，在添加元素的时候，对值通过多个hash函数的计算，得到多个0,1然后在字节数组里面在相应的位置设置值。这样处理完所有的值之后，一个完整的布隆过滤器就完成了。之后就进入应用阶段了，判断值在不在布隆过滤器里面了，如果新输出的对象是之前处理放在布隆过滤器里面的，那就一定是存在，因为两次计算得到的hash值是一样的，肯定在，那对于新的对象了，这时就有可能会出现误杀了，新的值的hash值可能与老的值hash一样，于是布隆过滤器就认为，这个值是黑名单里的了，会造成误杀的结果。相当于就是宁愿杀错一k，不愿放过一个。

4.改进：通常误杀的话，可以通过两个方法去补救，再建立一个白名单，从布隆器本身去优化，降低误杀率。

5.再举例，头条给你推荐内容的时候，肯定要去查询一个的你的历史阅读记录，你看过的内容，一定是存在你的记录中的，新内容会有很小的机率认为是你之前看过的。

编程小号

pycharm import cv2找不到指定模块_pycharm显示主菜单

上一篇 2025-02-06 19:21

fp5138升压电路图_大电流升压芯片

下一篇 2025-01-16 11:27

pycharm import cv2找不到指定模块_pycharm显示主菜单 1737011840
阿里编程规范 pdf_阿里前端开发规范 1737011728
vimrc 简洁配置 1737011713
springboot zuul网关_ubuntu网关服务器搭建 1737011609
2025年mysql配置1045错误_MySql 1045错误「建议收藏」 1737011515
NAT模式实现局域网物理机与虚拟机的互通访问「建议收藏」 1737011473
2025年git无法删除本地分支_git如何删除远程分支 1737011387
在移动端避免使用100vh「建议收藏」 1737011316
2025年三角不等式_三角函数基本不等式公式 1737011237
fp5138升压电路图_大电流升压芯片 1737011858
2025年约瑟夫环问题递归解法的一点理解 1737012037
2025年TODO「建议收藏」 1737012096
2025年海量数据处理：算法 1737012103
2025年java 中级面试题_java中级面试题[通俗易懂] 1737012132
树莓派初次使用（史上最全最详细教程！！）「建议收藏」 1737012250
2025年Optimal Keypad[通俗易懂] 1737012271
大数据开发常见面试问题总结「建议收藏」 1737012273
mysql数据库备份方法有几种_MySQL几种方法的数据库备份 1737012278

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
如需转载请保留出处：https://bianchenghao.cn/hz/124646.html