FFA 2021 专场解读 – 生产实践 / 机器学习

FFA 2021 专场解读 – 生产实践 / 机器学习公众号更名公告「Flink中文社区」更名为「ApacheFlink」感谢你们的关注▼关注「ApacheFlink」视频号,遇见更多大咖▼(注:bilibili的议题在平台建设专场…_flink智能诊断(advisor)

公众号更名公告

「Flink 中文社区」更名为「Apache Flink

感谢你们的关注

▼ 关注「ApacheFlink」视频号,遇见更多大咖 ▼

(注:bilibili 的议题在平台建设专场,详情可进官网了解)

4e3436ed352d612f0ba54fdd48ce88cb.png

12 月 4-5 日,Flink Forward Asia 2021 重磅开启,全球 40+ 多行业一线厂商,80+ 干货议题,带来专属于开发者的技术盛宴。

其中,生产实践专场集结阿里巴巴、腾讯、快手、小米、美团的技术专家探讨超大规模 Flink 集群运维与大规模作业稳定性优化实践等议题;

机器学习专场由来自阿里巴巴、京东、360 等技术专家呈现 Flink 机器学习的最新进展、具体应用实践与最新技术落地案例。

▼ 扫码了解完整大会议程 ▼

1160667f0975cac2f12178cce630d7a9.png

(大会官网)

生产实践

71f623904ad0181763a50e61f7236403.png

阿里超大规模

Flink 集群运维体系介绍

王华|阿里云实时计算高级运维专家

在实时计算领域阿里是最早一批全面拥抱 Flink 的公司,而且随着内部计算实时化大浪潮以及计算引擎 ALL IN Flink 的技术布局,使得阿里拥有了近几万台超大规模 Flink 集群,且承载了全集团和阿里云上极其重要、复杂丰富的实时计算业务场景。而运维这样一个实时敏感、规模庞大的实时计算系统,其运维复杂度和技术深度已经和传统大数据运维完全不能相提并论。

本次议题会揭秘阿里 Flink 运维体系,包括已经较成熟的基础运维部分,比如集群稳定性 SLA、资源管理模型、作业全自动化运维管理等,也有正在不断探索的智能运维高级部分,比如 Flink 作业智能诊断 & Advisor、基于云原生集群 AutoPolit 自愈服务等。

Flink 引擎在快手的

深度优化与生产实践

刘建刚|快手实时计算团队技术专家

自 2018 年至今,Flink 在快手进行了多轮迭代和升级,在功能、性能、稳定性、易用性等方面得到了极大提升,服务于快手的电商、实时大屏、视频推荐和直播等各类实时计算场景,得到了奥运、春晚等活动的洗礼。

本议题着眼于 Flink 引擎在快手生产实践中的经验,首先介绍 Flink 在各类复杂场景下容错能力的提升,然后分享下 Flink 引擎的控制能力增强和优化实践,最后再谈一谈我们在批处理方面的体验、评测和优化。

大规模作业的稳定性优化实践

邱从贤|腾讯数据平台高级开发工程师,Apache Flink Committer

Apache Flink 作为一个带状态的分布式计算框架,稳定性是很重要的一点,本次分享将从稳定性的定义,稳定性的分类,稳定性的挑战和相应的解决方案进行介绍。

小米基于 Flink 的

稳定性优化与实践

张蛟|小米大数据部高级软件工程师,Apache Flink Contributor

演讲主要包括以下几方面的内容:

  1. 小米实时计算平台的发展现状;

  2. 小米在基于 Flink 的实时计算中遇到的各类稳定性问题及解决方法方案实践;

  3. 重点业务支持;

  4. 后续的发展规划,实时计算框架和提供实时基础数据。

美团 Flink 大作业部署

与状态稳定性优化实践

冯斐|美团数据平台计算引擎组工程师

王非凡|美团数据平台计算引擎工程师,Apache Flink Contributor

在美团,业务团队使用实时数据的场景越来越多,实时计算的规模越来越大,这对实时计算引擎提出了更高的要求。为了能更好地支持 Flink 在生产环境中大规模应用,我们针对任务部署流程与运行时任务状态,进行了扩展性和稳定性优化。我们将从这几个方面介绍具体的优化实践:

  1. 美团 Flink 大规模应用落地面临的挑战;

  2. Flink 任务部署流程优化;

  3. Flink 任务状态稳定性优化;

  4. 未来规划。

机器学习

435173b359236d7dc8d24f512259c49e.png

Alink 新功能与典型案例

杨旭|阿里巴巴资深算法专家

Alink 是基于 Flink 的流批一体的机器学习平台,提供的一系列算法,可以帮助处理各种机器学习任务,比如统计分析、机器学习、实时预测、个性化推荐和异常检测。除了提供 Java API 也提供了 PyAlink,可以轻松部署到单机及集群环境,通过 Jupyter、Zepplin 等 notebook 使用。机器学习算法平台降低了用户使用机器学习、深度学习的门槛,将各个算法作为组件,即使不了解其后面的理论知识,用户也可以根据示例尝试新方法。

Alink、Tensorflow on Flink

在京东的应用

张颖|京东搜索推荐算法工程师

刘露|京东搜索推荐算法工程师

  1. 结合 Alink 实现实时模型训练的 failover 策略、基于 PS 的模型冷启动策略和模型热切换策略、模型训练基于状态后端的 pretrain 策略、模型基于 Flink 的分布式策略等;

  2. Tensorflow on Flink 在京东的应用。

基于 Flink AI Flow 的

机器学习工作流最佳实践

姜鑫|阿里巴巴高级工程师

蒋晓峰|阿里巴巴技术专家,Apache RocketMQ & Apache ShardingSphere & SOFAJRaft Committer,Apache Flink Contributor

典型的机器学习工作流通常包含多个步骤,如源数据 ETL(抽取、转化、加载),数据预处理,指标提取,模型训练与交叉验证,新数据预测等。在构建机器学习平台时,管理机器学习项目的整个生命周期成为痛点,需要引入机器学习工作流引擎帮助用户标准化管理机器学习项目的整个生命周期。

Flink AI Flow 是一个大数据和人工智能桥接的开源框架,将整个机器学习项目生命周期作为一个统一的工作流进行管理,包括特征工程、模型训练、模型评估、模型服务、模型推理、监控等。在整个工作流中,Apache Flink 作为通用计算引擎,利用基于事件的调度程序即增强版本的 Apache Airflow,支持包含流作业的工作流,能够覆盖机器学习全流程(从数据准备到模型训练到模型部署)。

本次演讲将介绍 Flink AI Flow 的基础原理以及机器学习工作流基于 Flink AI Flow 的最佳实践。

Clink:A C/C++ online

feature serving solution for Flink

陈震|360 智能工程部总监

得益于 Flink 的批流一体机制和 Alink 丰富的机器学习算子库,基于 Flink 生态的特征处理、特征生成和特征工程架构已在 360 多个业务线落地,但从基于 Java 栈的 Flink 生态上线到搜广推业务中常见的 C/C++ 技术栈开发的特征服务的过程中,存在着语言不一致,代码重复开发,算子实现细节差异,一致性难以保证、调试困难等问题。在这个背景下,我们与阿里 Flink/Alink 团队合作开发了 Clink。

Clink 主要包括三部分:

  1. 使用 C/C++ 开发了高性能的特征工程算子库 libclink ,可被 Flink/Alink 直接调用,解决编程语言和算子实现细节不一致的问题;

  2. 一套基于配置文件的特征工程 pipeline 引擎,该配置文件可在 Flink/Alink 直接导入导出;

  3. Clink 的 pipeline 可被 Clink-Serving,一个基于 bRPC 的高性能服务直接加载,启动为微服务架构的特征工程服务。

通过 Clink,可有效解决机器学习特征工程流程中存在的代码重复开发和一致性等问题。目前 Clink 已在 360 部分业务正式上线,基本上实现了 “Batch-Steaming-Online” 特征工程的一致性保证,较好地提升了算法迭代的效率。此外,Clink 也于近期完成了初步开源,希望能帮助到有类似需求的公司和团队。

伯努利:结构化的工业级

流式机器学习系统@阿里妈妈

姜碧野|阿里妈妈算法平台与效能架构团队高级算法专家

本次演讲将基于团队在 DLP-KDD2021 Workshop 上发表的论文:《What Do We Need for Industrial Machine Learning Systems? Bernoulli, A Streaming System with Structured Designs》。主要讲述在搜索推荐广告这种互联网场景下,面对不断流入的曝光点击数据,如何基于 Blink/Flink 流式处理引擎,配合特征计算和后端的分布式训练引擎,实时完成样本生成和模型训练更新。并探讨如何利用结构化特性,建立高效的流式机器学习迭代体系。

演讲主要分为几个部分:结构化的流式样本处理、模块化训练和资源复用、流式机器学习迭代体系。本系统已经在阿里巴巴广告业务实际落地并全量部署,通过流式迭代(相比于批处理的天级迭代)极大地提高了算法工程师的实验迭代效率。


以上为 Flink Forward Asia 2021 生产实践以及机器学习专场内容节选,了解更多大会详情可扫描下方二维码。

173336b09e3ad70dd4edf27f8c6635e4.png

Flink Forward Asia 2021 赞助与合作

b1d703fb9e24066510221d2ba6e75473.png


首届 Flink Forward Asia Hackathon 正式启动,10W 奖金等你来!

欢迎进入赛事官网了解详情:

https://www.aliyun.com/page-source//tianchi/promotion/FlinkForwardAsiaHackathon

25ddebadda17a94121dcc7da53ebad46.png

更多 Flink 相关技术问题,可扫码加入社区钉钉交流群~

4255b3099ed8a7f4e3e926dec33b0b71.png

▼ 关注「Apache Flink」,获取更多技术干货 ▼

 dcdc51ec980cf2e057093de27c3b99a4.gif  戳我,报名 FFA 2021 大会!

今天的文章FFA 2021 专场解读 – 生产实践 / 机器学习分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/62340.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注