- 大数据采集
是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。 - 数据
数据包括RFID数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据。
大数据的分类
- 业务数据:消费者数据、客户关系数据、库存数据、账目数据等。
- 行业数据:车流量数据、能耗数据、PM2.5数据等。
- 内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。
- 线上行为数据:页面数据、交互数据、表单数据、会话数据、反馈数据等。
- 线下行为数据:车辆位置和轨迹、用户位置和轨迹、动物位置和轨迹等。
数据源的分类
- 企业系统:客户关系管理系统、企业资源计划系统、库存系统、销售系统等。
- 机器系统:智能仪表、工业设备传感器、智能设备、视频监控系统等。
- 互联网系统:电商那系统、服务行业业务系统、政府监管系统等。
- 社交系统:微信、QQ、微博、博客、新闻网站、朋友圈等。
采集方法和采集工具
- 大数据的采集
是指利用多个数据库或存储系统来接收发自客户端(Web、App或者传感器形式等)的数据。 - 在大数据时代,Redis、MongoDb和HBase等NoSQL数据库常用于数据的采集。
- 大数据的采集过程的主要特点和挑战是并发数高。
- 大数据采集时使用了大数据的处理模式即,MapReduce分布式并行处理模式或基于内存的流式处理模式。
- 大数据的采集方法
1)数据库采集
Redis、MongoDB和HBase等NoSQL数据库常用于数据的采集。企业通过在采集端部署大量数据库,并在这些数据库之间进行负载均衡和分片,来完成大数据采集工作。
2)系统日志采集
系统日志采集主要是手机公司业务平台日常产生的大量日志数据,供离线和在线的大数据分析系统使用。高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。系统日志采集工具均采用分布式架构,能够满足每秒数百MB的日志数据采集和传输需求。
3)网络数据采集
网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息的过程。
4)感知设备数据采集
感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。
今天的文章大数据采集方法分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/6000.html