用 Resilience4j 替代 Hystrix,实现熔断、重试、舱壁和限流。
在云平台使用可被随时回收的廉价计算实例进行训练,并通过检查点和弹性恢复保证训练任务完成。
实现训练任务在遇到节点故障、网络中断等问题时能够从保存的检查点恢复,并继续训练。