Omni-Modal: AR vs DiT
导言
全模态大模型(Omnimodal Large Models, OLMs),以下简称Omni模型,有时也称之为“端到端多模态大模型”。 它主要解决的文本、图片、语音多模态理解与实时交互的协同问题(图片修改),最新的研究也会涉及统一推理和图像生成。
当前多模态设计中AR和DiT的组合关系,单独学习一下
导言
全模态大模型(Omnimodal Large Models, OLMs),以下简称Omni模型,有时也称之为“端到端多模态大模型”。 它主要解决的文本、图片、语音多模态理解与实时交互的协同问题(图片修改),最新的研究也会涉及统一推理和图像生成。
当前多模态设计中AR和DiT的组合关系,单独学习一下
导言
必看好文6
导言
快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点:
导言
当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程,充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段,如先进行模态对齐的一阶段预训练,然后进行二阶段的参数微调。

导言
作为卖NPU AI加速卡的软件员工, 目标是将昇腾的底层算力与上层多模态应用需求精准对接,释放昇腾AI算力,让客户看到NPU的性能、性价比、易用性、客户自身业务的使用需求。
导言
在LLM对齐的早期探索中,研究者们建立了两种影响深远的基础范式。
鉴于PPO-RLHF的复杂性,研究者们开始寻求更简洁、更直接的对齐方法。直接偏好优化(Direct Preference Optimization, DPO)应运而生,它巧妙地绕过了显式的奖励建模和复杂的RL优化循环,为偏好对齐提供了一个优雅的替代方案。
这篇文章介绍DPO, 和Step-Video论文介绍了Video-DPO, 这类训练中最后通过人工标注优化的方法。
必看好文6