作者
潍坊银行零售银行部 魏建国
一、数据埋点体系概述
1. 数据埋点的定义
数据埋点是数据采集领域中的专业术语,它是指对特定或不特定用户行为和事件等进行捕捉、处理和传输的相关技术及其实施过程。数据埋点的价值在于帮助数据分析人员洞察用户行为,辅以用户分群分层,实现用户精准营销、交易和服务流程优化,以及风险监测(异常行为)等。
2. 数据埋点的分类
根据数据埋点不同位置,其可分为前端数据埋点和后端数据埋点。各类数据埋点的定义、优缺点及适用场景情况详见表1。

前端数据埋点主要通过软件开发工具包(SDK)进行用户行为数据采集,为保持前端使用流畅性,一般对采集的用户行为数据进行压缩、暂存和打包上传。对于实时性不强的事件数据,通常采用异步上传方式,因此会出现埋点数据上报的延迟和漏报情况。
后端数据埋点主要通过调用应用程序编程接口(API)采集用户行为数据或事件数据,由于绝大部分使用内网传输信息,数据丢包概率较小,因此后端埋点数据可实时反映用户行为或事件。与前端数据埋点相比,后端数据埋点实时采集用户行为数据信息更为便捷,较少存在延时上报情形,行为数据信息更为精准;同时能整合用户所有相关数据信息,即时发布即时生效。
3. 数据埋点的相关指标
视角不同,数据埋点的相关指标就不同。本文分别以系统视角和用户视角进行介绍。系统视角是以数据埋点系统为出发点,通过“4W1H”作为要点提取数据,相关指标详见表2。用户视角是以用户为核心、通过用户行为产生的事件表,主要有页面事件(用户停留时长TP)、曝光事件(用户访问量PV和独立访客量UV)和点击事件(用户的点击操作Click)等。

4. 商业银行数据埋点体系
从技术角度考虑,商业银行数据埋点体系包括PC端、移动端数据埋点和可视化数据埋点(详见表3)。
二、数据埋点设计及实施流程
数据埋点是线上用户洞察的重要一环,是一项需多部门协作共同完成的工作,数据分析师在这个流程中承担着非常重要的角色,从数据需求评估阶段直至数据应用阶段都会全程参与,业务部门相关人员则在关键节点参与。数据埋点设计及实施流程主要包括六个步骤:需求洞察、数据指标确定、数据埋点设计、数据埋点方案确认、数据埋点方案执行、业务监控及优化。
1. 需求洞察
该环节主要由数据分析师、相关业务部门人员及用户参加,围绕用户痛点和业务部门KPI梳理全渠道用户旅程,整理出用户关键行为和事件。
2. 数据指标确定
数据分析师和业务部门相关人员对梳理出来的用户关键行为和事件进行评估,根据评估后的结果确定相应的数据指标。
3. 数据埋点设计
数据分析师得到用户关键行为和事件等数据指标后,就要着手进行数据埋点设计。主要有如下几个关键点:统一表结构和规范字段名、确认事件与变量、确认事件触发时机、确认事件上报机制、明确优先级。
(1)统一表结构和规范字段名
统一数据表结构是指为方便数据分析团队内部进行数据管理和数据复用,在团队内部形成一套统一的数据结构规范。例如,将数据表分为不同层级:第一层记录用户的基础信息(静态信息),包括用户ID、地区、昵称等;第二层记录用户行为信息(动态信息)等。
统一数据命名规范同样是数据埋点工作的重要环节,需要团队建立数据字典,统一数据命名规范,确保同一变量在所有的数据表中都用统一的字段名。例如,对于“交易金额”这个字段,所有的表中只要出现“交易金额”都用“Amount”字段名,不要用“Money”“Payment”等其他字段名。
建立企业内部或者数据分析团队内部的命名规范是非常必要的,可采用“动词+名词”或者“名词+动词”规则来进行命名,例如“加入购物篮”事件,可命名为“addToBasket”。
(2)确认事件与变量
事件是指产品中功能产生的结果或用户操作的结果。变量是指描述事件或行为的属性,也可以是业务部门的关键指标。确认事件与变量可通过海盗模型(AARRR)或者用户旅程模型(UJM)厘清用户生命周期和行为路径,抽象出关键节点、指标及对应变量。
(3)确认事件触发时机
事件的触发时机是影响埋点数据准确的重要因素,触发时机不同,意味着埋点数据的传输内容不同,数据准确性也不同。例如,手机银行用户转账,是以用户点击转账按键作为触发条件,还是以转账成功作为触发条件,两者时机不同,数据差异非常大,因此明确事件触发时机重要且必要。
为精准记录手机银行用户转账行为,一般在用户转账功能中使用两个字段记录该行为:一个字段标记点击转账按键行为,另外一个字段标记是否已转账成功。
(4)确认事件上报机制
事件上报机制也是影响数据准确性的重要因素。客户端上报数据由于网络原因可能会出现丢包情形。完成数据埋点工作后,数据分析团队需要与业务部门根据事件的紧急程度,以及与技术部门根据技术支撑情况来决定是实时还是异步上报埋点数据。通过评估确定数据埋点的合理性,若不合理则需及时调整。
(5)明确优先级
数据埋点是为数据分析应用打基础。数据埋点后,面临着搭建数据埋点指标体系、构建数据埋点报表体系等各项工作,数据分析师可根据业务部门既定需求、埋点技术实现成本及资源有限性,确定数据埋点的优先级别。
4. 数据埋点方案确认
从技术视角确认数据埋点方案,有以下几点需要关注。
(1)用户唯一标识和设备标识
用户唯一标识即用户ID,是可获取的用户识别号(例如手机号、邮箱等),是整个方案的重点。无法获取用户唯一标识,则无法正确统计UV。设备标识即设备ID,代表用户使用的设备,例如安卓系统的Android ID/IMEI、iOS系统的IDFA/UDID、浏览器的Cookie、小程序的OpenID等。
如果可以获取用户ID和设备ID,即可知道由谁操作设备、用户是否更换设备、同一设备不同用户登录情况等。
(2)数据集采技术
数据集采技术主要有三种:WEB端数据集采、移动端数据集采和小程序数据集采。
WEB端集采的数据种类可分为三类:页面浏览埋点数据、页面交互埋点数据和特定场合埋点数据(详见表4)。

移动端的用户行为埋点数据是通过SDK采集,根据用户在移动端的行为不同,用户行为的集采数据可分成两大类型:一类是浏览数据埋点,另一类是用户与移动端交互数据埋点。以浏览数据埋点为例,如果要获取用户在某页面停留时长数据,通过SDK发送采集数据的时刻是该页面创建时。否则,通过SDK发送采集数据的时刻是用户浏览页面结束后。页面浏览数据需统计三类信息:用户及设备基本信息(用户ID、IMEI)、被访问页面信息(店铺ID、商品ID)、访问路径信息(上一个页面来源)。
小程序数据埋点方案相对简单,根据微信提供的API调用即可,主要有代码埋点和无代码埋点两种。
(3)数据上传方式
批量的埋点数据可以通过Flume(包含三大组件Source、Channel和Sink)直接上报,流式的埋点数据可以使用Kafka(可处理大量实时数据),或者直接使用Flink(高吞吐、低延迟的分布式流/批处理引擎框架)来处理。
5. 数据埋点方案执行
数据埋点方案执行主要先做两方面的工作:一是代码部署,重点是代码的内部自查。二是埋点事件上线,重点是进行埋点数据校验,确保埋点数据校验无误。例如,使用随机对照试验(RCT)对埋点数据和非埋点数据进行对照验证。自查代码和数据验证完毕后,即可进行业务监控及优化。
6. 业务监控及优化
业务监控及优化是埋点数据应用的核心,主要输出三部分内容:一是业务数据监测。这部分对数据实时性要求比较高,主要有实时数据大屏应用等。二是指标及报表体系。这部分对数据实时性要求不高,主要是各类数据报表。三是业务专题分析。这部分主要对数据埋点进行分析,重点是优化埋点。
三、数据埋点治理
随着业务精细化发展,需要埋点上报的数据量激增,埋点数据如不加以治理,则会大量消耗计算和存储成本,也给业务带来困扰,导致业务价值难以体现。
数据埋点治理的核心是将有限的资源投入到有效的数据上报中,主要有两方面内容:一是精益思想。提升价值,杜绝浪费,即把有限资源,如系统性能、存储、带宽等,投入到有业务价值的数据上报中,杜绝将资源浪费在无价值的数据上报中。二是动态思想。数据埋点治理不是一成不变的,而是随着业务发展而不断变化的。具体而言,数据埋点治理主要有四大策略:先增后存、杜绝无用、埋点分级、支持采样。
策略一,先增后存。先增后存指的是先控制数据埋点增量,后整理数据埋点存量。就像治理河道污水一样,首要治理的是排入河道的污染源,控制住污染源后,再治理污染的河水。同理,数据埋点治理要先把新增数据埋点控制住,然后再逐步治理存量数据埋点。例如,在数据埋点配置文件中添加“是否报送”参数,用于决定数据埋点是否上报数据。
策略二,杜绝无用。杜绝无用是指以业务部门的业务指标关注度为标准,对涵盖业务指标的数据埋点进行定义和分析,找出无用或低价值数据埋点进行优化。
在定义方面,数据埋点的定义有两点——业务价值和成本。以体现业务指标的数据埋点使用情况为业务价值表现(体现程度越高则价值越高),以上报量为成本,可以将业务价值和成本分为高中低三个层次进行打分。
在分析方面,数据埋点的分析主要有三个维度——离线查询维度、实时查询维度和用户行为分析维度。按照这三个维度梳理数据埋点的价值和成本,其中价值极低且成本极高的数据埋点可视为无用或低价值埋点。以提升业务价值、降低成本为出发点,通过以上三个维度对现有数据埋点发起治理,确定无用或低价值数据埋点,将“是否报送”参数设置为“否”,可以节省大量成本。
策略三,埋点分级。数据埋点是服务于业务指标的,它的重要性和优先级来自业务指标的重要性和优先级。例如,业务核心指标用到的数据埋点的重要性和优先级要远高于系统研发(RD)用到数据埋点的重要性和优先级。
为解决上述问题,可通过对数据埋点进行等级标注体现数据埋点的重要性和优先级。例如,将数据埋点分五级,对不同等级的数据埋点提供不同运维服务保障,提升数据埋点运维效率,均衡计算和存储资源。对于数据埋点等级一级、需要实时处理的数据埋点,可用高优队列、专线资源;对于数据埋点等级二级、不需要实时处理的数据埋点,可用低优队列,错峰时间传输数据等。
策略四,支持采样。除了上述类型的数据埋点外,还有一类数据埋点需要采样或按比例上报数据,并不需要全量上报相关数据。对这类特殊的数据埋点,应在数据埋点配置中加入两项配置项,即采样和采样比例。通过采样上报可极大节省存储空间,提升埋点数据处理效率。
构建应用数据埋点体系是商业银行实现业务数字化精细化运营的重要基础。随着科技的发展,商业银行应更加关注移动领域相关新技术研究应用,结合业务目标,进行数字化精准运营,持续提高数据埋点集采的准确和有效性,推动商业银行数字化转型中业务数据化向数据业务化方向演进。
本文刊于《中国信用卡》2023年第11期
责任编辑:崔嘉桐
征稿启事
《信用卡运营》——杂志重点打造的品牌栏目,关注信用卡营销、风控,数字化经营以及产品、业务、技术等的创新应用等,携手业界推动信用卡高质量发展。
《技数派》——解读行业新技术应用,分享数据模型应用案例,推动数字技术与金融业务深度融合,赋能业务功能价值提升。
《RPA应用》——聚焦RPA技术应用最新实践,分享RPA技术的应用研究和思考探索,赋能金融数字化转型。
投稿要求:投稿须为未发表的原创作品,内容具有科学性、创新性及行业实用性;字数2000~6000字。
投稿邮箱:ccc@fcc.com.cn
喜欢本文的话,戳这里↓↓↓
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ri-ji/61494.html