一.引言
Flink 运行任务期间报错 The heartbeat of TaskManager with id container timed out,对应任务由 Running 切换为 Failed,下面基于该问题进行排查与解决。
二.问题描述
该 Flink 任务 7×24 h 挂起,为 EventTime 模式下的有状态带 ValueState 作业,运行期间 ValueState 大小稳定,但程序会在 4-8 h 的不确定间隔下报错 The heartbeat of TaskManager with id container timed out,从而导致任务失败。
通过 yarn-streaming 任务日志可以看到任务分别在当天共重启3次:
Failed A -> 6:00 – 12:42 运行 6 h 42 min 后异常退出
Failed B -> 12:50 – 19:05 运行 6 h 15 min 后异常退出
Failed C -> 19: 10 – 22:52 运行 3 h 42 min 后异常退出
三次报错的异常栈都对应 The heartbeat of TaskManager with id container timed out,无其他显
今天的文章Flink 异常 – 9.The heartbeat of TaskManager with id container timed out 分析与 Heartbeat 简介分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/4611.html