Flink 异常 – 9.The heartbeat of TaskManager with id container timed out 分析与 Heartbeat 简介

Flink 异常 – 9.The heartbeat of TaskManager with id container timed out 分析与 Heartbeat 简介FlinkHeartbeat原理与异常解决。

一.引言

Flink 运行任务期间报错 The heartbeat of TaskManager with id container timed out,对应任务由 Running 切换为 Failed,下面基于该问题进行排查与解决。

Flink 异常 - 9.The heartbeat of TaskManager with id container timed out 分析与 Heartbeat 简介

二.问题描述

该 Flink 任务 7×24 h 挂起,为 EventTime 模式下的有状态带 ValueState 作业,运行期间 ValueState 大小稳定,但程序会在 4-8 h 的不确定间隔下报错 The heartbeat of TaskManager with id container timed out,从而导致任务失败。

Flink 异常 - 9.The heartbeat of TaskManager with id container timed out 分析与 Heartbeat 简介

通过 yarn-streaming 任务日志可以看到任务分别在当天共重启3次:

Failed A  ->  6:00 – 12:42 运行 6 h 42 min 后异常退出

Failed B  -> 12:50 – 19:05 运行 6 h 15 min 后异常退出

Failed C  -> 19: 10 – 22:52 运行 3  h 42 min 后异常退出

三次报错的异常栈都对应 The heartbeat of TaskManager with id container timed out,无其他显

今天的文章Flink 异常 – 9.The heartbeat of TaskManager with id container timed out 分析与 Heartbeat 简介分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/4611.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注