跳转至

Business Trip: 2601-2602 verl + DanceGRPO

导言

ZJ内部出差,从0到1完成verl + MindSpeed MM + DanceGRPO算法的 t2v RL,达成reward快速持续上升。

时间线/里程碑

260109 - 260215

1.首周:了解现场客户的组织架构,对齐各部分进度,合作代码。 2.功能打通(2人合作): 1. 首周: 1. 0114: Dataloader整改以支持推理输入; 2. 0115-0116: 整合ZJ现场环境,接入MM Model支持初始化; 2. 第二周: 1. 0119-0122: 单卡/减层/不加载RM RL流程通,但是推理出乱码; 2. 0122-0124: 权重转化、推理接入权重转化后权重、全层遇到CANN报错。 3. 第三周 1. 0126-0126: 更新模型最新结构、正常加载权重,修改推理逻辑分支,能正常推理出图片信息。 2. 0127-0128: 依据DanceGRPO算法更新, 3. ...

反思和总结

评论