2025¶

2025年12月10日
分类于 AI
需要 1 分钟阅读时间

DiffSynth & ms-swift

导言

DiffSynth-Studio 是由魔搭社区（ModelScope, 阿里2022年11月开源的模型社区）算法工程师段忠杰主导开发的开源扩散模型引擎，致力于构建统一的 Diffusion 模型生态。该项目支持多种主流文生图/文生视频模型（如 Stable Diffusion、可图、CogVideoX），并兼容 ControlNet、LoRA、IP-Adapter 等生态模型，显著提升中文场景下的生成能力。¹

ms-swift³是魔搭社区提供的大模型与多模态大模型微调部署框架，现已支持600+纯文本大模型与300+多模态大模型的训练（预训练、微调、人类对齐）、推理、评测、量化与部署。

其中大模型包括：Qwen3、Qwen3-Next、InternLM3、GLM4.5、Mistral、DeepSeek-R1、Llama4等模型，
多模态大模型包括：Qwen3-VL、Qwen3-Omni、Llava、InternVL3.5、MiniCPM-V-4、Ovis2.5、GLM4.5-V、DeepSeek-VL2等模型。

除此之外，ms-swift汇集了最新的训练技术，包括集成

Megatron并行技术，包括TP、PP、CP、EP等为训练提供加速，
以及众多GRPO算法族强化学习的算法，包括：GRPO、DAPO、GSPO、SAPO、CISPO、RLOO、Reinforce++等提升模型智能。
DPO、KTO、RM、CPO、SimPO、ORPO等偏好学习算法，
以及Embedding、Reranker、序列分类任务。

ms-swift提供了大模型训练全链路的支持，包括使用

vLLM、SGLang和LMDeploy对推理、评测、部署模块提供加速，
以及使用GPTQ、AWQ、BNB、FP8技术对大模型进行量化。

2025年12月10日
分类于 AI
需要 1 分钟阅读时间

VeOmni

导言

VeOmni 是字节跳动与火山引擎联合研发的 统一多模态训练框架，核心目标是解决多模态模型（如 DiT、LLM、VLM、视频生成模型）训练中的碎片化问题，实现 “统一多模态、统一并行策略、统一算力底座”。其经过千卡级真实训练任务验证，支持从百亿级语言模型到 720P 视频生成模型的全流程训练。¹

2025年12月9日
分类于 Tutorials
需要 7 分钟阅读时间

Pip Cache

导言

VeRL场景开发时，安装包特别多和复杂：

CANN
torch\torch_npu
vllm\vllm_ascend
MindSpeed\megatron
transformer

开发时还要pip install -e . 还要修改代码。

传统的思路是docker镜像或者conda打大包，但是这种包一个就是20GB+，但是这是商发时的策略，开发时即使只是修改一行，但是还是要重新出一个20GB大包。

思路是借助并加速pip的原子化构建：

在内网服务器上建立一个pip包缓存站，
不仅能缓存官方包，
自己修改的代码包也能提交。
最终实现，除了CANN安装，其余pip包，一行pip intall -r requirements.txt就行。

2025年12月6日
分类于 toLearn
需要 1 分钟阅读时间

Training Data Usage

导言

论文中提及的数据训练，分数上涨和饱和的描述总结

2025年12月5日
分类于 Artificial Intelligence
需要 6 分钟阅读时间

导言

视觉领域的GPT moment要来了吗？⁴

World Model: (e.g., Emu3.5)
Unified Foundation Models, UFMs，强调视觉能力的闭环。证明模型能像“看懂”图片一样“画出”图片。(e.g.,Bagel, Lumina, Emu3.5)
Omni 强调交互能力的闭环。证明模型能像真人一样，具备实时、全感官的反应。图片生成暂时不是必须的(e.g.,Qwen-3-Omni、longcat-omni), 但是也能支持(e.g., Ming-Omni)

当前多模态设计中AR和DiT的组合关系，单独学习一下

2025年12月4日
分类于 AI
需要 3 分钟阅读时间

vllm-omni & DiT Inference Accelerate

导言

vllm专门为了多模态单独推出了推理框架vllm-omni，调研一下

2025年12月2日
分类于 Artificial Intelligence
需要 6 分钟阅读时间

VeRL

导言

VeRL 作为RL领域趋势最火的开源仓，值得学习。

2025年12月2日
分类于 Artificial Intelligence
需要 2 分钟阅读时间

Fast Debug: VeRL example

导言

VeRL 基于ray的多进程管理，并结合推理、训练等多个阶段。其E2E时间组成和如何加速都是待研究的课题。

2025年11月27日
分类于 Programming
需要 6 分钟阅读时间

Pytorch 7 ：Memory Optimization(Freeing GPU/NPU Memory Early)

导言

对于不使用的python对象，如何释放？
python 的对象管理机制
del，empty_cache , gc_collect的原理

2025年11月27日
分类于 Programming
需要 1 分钟阅读时间

Pytorch 8 ：Hyperparameter

导言

learning rate、clip_norm、梯度累计、micro bs 这些通用超参，应该如何调整。