Hbase统计、 hive中创建关联hbase的几种方案

Hbase统计、 hive中创建关联hbase的几种方案本文探讨了在 HBase 中统计行数的多种方法 包括 HBaseShell 的 count 命令 MapReduce Hive 关联查询以及 Coprocessor

问题一:hbase证件号+日期 又查询单条,有统计一天的量

需求:有一张数据表,其中包含手机号码字段。

1. 查询一段时间内固定号码的所有数据 2. 查询一段时间内所有数据。

分析:HBase要想查询快速,只能从rowKey上下手,

解决思路1:rowKey=phoneNum+时间 可以实现目标1,设置StartRow ;

在建立一个scan对象后,我们setStartRow(00000),setEndRow(00000)。

这样,scan时只扫描userID=000001的数据,且时间范围限定在这个指定的时间段内

 但是目标2很难实现,RowFilter的SubstringComparator(子串匹配)话全表扫描,很慢,效率很低

rowKey=时间+phoneNum 可以实现目标2,但是目标1很难实现,

且数据量越来越大可能导致热点问题。

解决思路1:牺牲空间换时间,写数据时同时写入两张表,内容一样,只是一张表rowKey=phoneNum+

今天的文章 Hbase统计、 hive中创建关联hbase的几种方案分享到此就结束了,感谢您的阅读。
编程小号
上一篇 2025-01-05 11:11
下一篇 2025-01-05 11:06

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/102538.html