本文根据 Akulaku 算法总监马宇翔在『OpenMLDB Meetup No.1』中的演讲整理而成。
OpenMLDB在AKULAKU实时特征计算场景的应用 马宇翔 AKULAKU 算法总监
本文主要围绕下面四点展开:
- AKULAKU介绍
- 初识OpenMLDB
- 业务场景应用
- 演进建议
【01 | AKULAKU介绍】
关于Akulaku
Akulaku公司成立于2016年,是一家专注于东南亚市场的金融科技公司。金融科技公司的显著特点,就是所有的业务都和钱直接相关。
Akulaku的业务场景
从业务场景的角度,团队首先从类似于花呗的场景切入,随着业务逐渐壮大,开始涉足虚拟信用卡业务,目前Akulaku拥有商业银行以及理财投资业务,所有业务均涉及庞大的交易量。
科技助力业务快速发展
不断增长的用户量和交易量给风控系统带来极大的压力,团队首先需要保障公司风控的高水平状态,而这主要依赖于机器学习、CV、NLP、Graph等人工智能技术,同时利用收集到的庞大数据量,推动业务发展。
以上是Akulaku业务场景的大致介绍,如果是业界同行,目前应该已经能理解Akulaku为什么会非常迅速的上手OpenMLDB了。
AKULAKU机器学习技术栈
下图是Akulaku当前的技术栈,目前技术栈的每一层均独立规划。
- 场景层:涉及CV、NLP、Speech、图挖掘、AutoML等各类算法,用于解决诸多业务场景所面临的问题,同时开发各类模型用于填补可能出现的各种风险漏洞
- 平台层:各个环节中,数据处理占据80%以上的资源和耗时,服务层和算法库基本采用业界主流解决方案。
【02 | 初识OpenMLDB】
AKULAKU结识OpenMLDB的经历
第一次接触OpenMLDB,是2021年4月份,彼时正在探索Spark的优化问题,了解到OpenMLDB离线计算的前身 SparFE发行版。6月份参加第四范式的技术发布会,了解到OpenMLDB,发现它正好切中了Akulaku的一个业务痛点。基于这个痛点,我开始研究OpenMLDB的源码。过往尝试过阿里的闭源流批一体实时数仓解决方案,但因其闭源,且主要服务于阿里内部业务的原因,特性不是非常的贴合业务需求,但也无法改动。第一次遇到一个开源的一体化解决方案,我感到非常好奇,于是基于OpenMLDB做了特定场景的测试。8月看到OpenMLDB发表于VLDB 2021的性能优化论文。9月份开始使用OpenMLDB解决具体业务问题。12月在一个相对比较新的场景上基于OpenMLDB将离线特征开发上线实时环境,开始将OpenMLDB应用于生产环境。
AKULAKU机器学习开发pipeline
下图是一个通用的Akulaku结构化数据建模场景,通常由原始数据、特征工程、机器学习、风控模型更新等环节构成。基于海量原始数据,根据数据的基本属性,进行人工或者自动特征工程,抽取属性、文本、时间序列等特征属性,通过超参数优化、模型选择等完成模型构建,最终实现应用上线。团队过往基于KubeFlow实现模型更新,但特征更新一直是机器学习开发当中最大的痛点。那么,特征更新能否单纯通过堆砌计算资源来实现呢?
- 不限资源,就能马上算完吗?即便在不限资源的情况下,面对每天产生的 PB 级结构化数据,也难
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/84498.html