跳转至

Artificial Intelligence

Ideas around T2I2V models

导言

当前主流的多模态生成模型(如图像生成text2image和视频生成text2video)主要采用Latent Stable Diffusion的方案框架。为了减少计算量,图像/视频等模态的数据(噪声)先经过VAE压缩得到Latent Vector,然后在文本信息的指导下进行去噪,最后生成符合预期的图像或视频。

排行榜: (T2I, ImageEdit, T2V, I2V, )

  • Vbench
  • lmarena
  • artificialanalysis

  • 当前主流的多模态生成模型(如图像生成和视频生成)主要采用Latent Stable Diffusion的方案框架。为了减少计算量,图像/视频等模态的数据(噪声)先经过VAE压缩得到Latent Vector,然后在文本信息的指导下进行去噪,最后生成符合预期的图像或视频。

  • 当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程,充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段,如先进行模态对齐的一阶段预训练,然后进行二阶段的参数微调。

Understand deeper : Why xxx is useful?

导言

明白设计(数据构造,模型设计, 训练流程)的有效性,是抓住问题核心的关键。有助于在众多的AI论文里筛选出有效结论。

  • 一些AI大厂只是通过不断的微调,消融尝试,堆砌最新的trick方法达到SOTA,再提出一些听上去make sense的观点来发论文。但是其观点的可迁移性难以保障。
  • 但是一些研究人员专注在AI的有效性,可解释性的探索:虽然难有直接产出,但是对AI技术的未来方向提供了宝贵的信息。(e.g., 研究模型参数和层的有效性,流程的必要性)

通过这些宝贵的信息,才能渐渐知道能被时间检验过的经验是什么。

本文将聚焦于归档 有效性相关的工作。

Classical AI Models

导言

机器学习和人工智能模型算法,从一开始模仿神经元设计,到现在根据任务定制或者基于naive的思想构建(例如对抗思想、感受野、注意力机制)。模型的设计可以说是日新月异,截然不同。但是从高性能计算的角度来看,还是离不开求导操作、矩阵操作、激活函数计算这几点。剩下值得考虑的就是寻找现有或者未来模型构成计算操作的最大公约数,来对其进行特殊软硬件设计加速。或者只是对现有模型的适配加速工作。