Artificial Intelligence¶

2025年2月27日
分类于 Artificial Intelligence
需要 1 分钟阅读时间

Next of My Ascend Career

导言

作为卖NPU AI加速卡的软件员工，目标是将昇腾的底层算力与上层多模态应用需求精准对接，释放昇腾AI算力，让客户看到NPU的性能、性价比、易用性、客户自身业务的使用需求。

2025年2月27日
分类于 Artificial Intelligence
需要 4 分钟阅读时间

AI Post Traning: DPO

导言

在LLM对齐的早期探索中，研究者们建立了两种影响深远的基础范式。

一种是基于强化学习的PPO，它将经典的RL框架引入LLM微调，通过复杂的系统协调实现了强大的性能；
另一种是DPO，它通过深刻的理论洞见，将对齐问题转化为一个更简洁的监督学习问题，显著提升了训练的稳定性和效率。

鉴于PPO-RLHF的复杂性，研究者们开始寻求更简洁、更直接的对齐方法。直接偏好优化（Direct Preference Optimization, DPO）应运而生，它巧妙地绕过了显式的奖励建模和复杂的RL优化循环，为偏好对齐提供了一个优雅的替代方案。

这篇文章介绍DPO, 和Step-Video论文介绍了Video-DPO, 这类训练中最后通过人工标注优化的方法。

必看好文⁶

2025年2月25日
分类于 Artificial Intelligence
需要 5 分钟阅读时间

AI Traning System

导言

Step-Video论文详细介绍了AI 系统的一些构建细节。

2025年2月20日
分类于 Artificial Intelligence
需要 2 分钟阅读时间

250217 Step-Video-T2V Reading & Porting

导言

阅读Step-Video-T2V代码（git id d3ca3d6），移植到昇腾。

2025年1月2日
分类于 Artificial Intelligence
需要 1 分钟阅读时间

AI Model Visualization

导言

作为一个AI初学者，总是遇到以下场景：

客户正在基于NV开发一个AI模型，需要同步的做昇腾适配。手上只有NV下的代码。
往往很难将论文里的AI模型的图，和代码里的每一层以及参数对应起来。

设计期望：

在模型开发的过程中，能简单插入，来明确当前模块的大致信息。
名称，类型(卷积层，池化层)，输入/输出/参数, 执行的时间(第一次)。
可视化
格式兼容cpprinter。
能体现出TP，CP等并行策略的效果。

大致思路：

还是借助chrome://tracing格式，来设计类似PyPrinter的工具。
早期可以使用VizTracer代替。

2024年1月3日
分类于 Artificial Intelligence
需要 6 分钟阅读时间

AI Traning Parallism

导言

AI 训练时，有些分布式训练的常见并行概念需要了解。
例如，TP, VP, SP, VPP

2023年12月20日
分类于 Artificial Intelligence
需要 2 分钟阅读时间

AI Hardware & Accelerators

导言

牧本定律由1987年牧村次夫提出，半导体产品的发展历程总是在“标准化”和“定制化”之间交替摆动，大概每十年摆动一次，揭示了半导体产品性能功耗和开发效率之间的平衡，这对于处理器来说，就是专用结构和通用结构之间的平衡—专用结构性能功耗优先，通用结构开发效率优先。
贝尔定律是由戈登贝尔在1972年提出的一个观察，即每隔10年，会出现新一代计算机（新编程平台、新网络连接、新用户接口、新使用方式），形成新的产业，贝尔定律指明了未来一个新的发展趋势，这将会是一个处理器需求再度爆发的时代，不同的领域、不同行业对芯片需求会有所不同，比如集成不同的传感器、不同的加速器等等。

生产特殊的硬件：

带来的加速比和能耗收益，达到10倍百倍都是很正常的。
但是开发成本也是巨大的，包括芯片设计，流片成本，软件栈的开发，商业化的推广。
开发周期也相当长。需要对当前的技术的未来具有前瞻性。不要生产出来就过时了。

常见的例子，用于并行计算的GPU， H265视频编解码单元, Google TPU芯片、车载芯片、手机AI芯片。

AI领域的至今不变的特点：

基于反向传播和梯度/参数更新的整体逻辑
需要保存大量的参数来表征问题，以高维矩阵的形式存储，所以矩阵运算十分常见
训练由于要计算并更新梯度，一般是计算密集。但是推理一般是访存密集。

现在大火的transformer，除非它就是AGI的最理想模型，不然为一个模型专门定制硬件，很容易钱就打水漂了。为自己的算法模型定制一块AI芯片，如特斯拉。但应用面越窄，出货量就越低，摊在每颗芯片上的成本就越高，这反过来推高芯片价格，高价格进一步缩窄了市场，因此独立的AI芯片必须考虑尽可能适配多种算法模型。¹

当然，也可以从workload的应用出发，分析有什么重复的热点，值得做成专用的电路单元。

2023年12月20日
分类于 Artificial Intelligence
需要 1 分钟阅读时间

AI Infra: 10k-GPU cluster

导言

为什么需要万卡集群
万卡集群的使用难点
应对方案

2023年12月20日
分类于 Artificial Intelligence
需要 13 分钟阅读时间

Ideas around T2I2V models

导言

当前主流的多模态生成模型（如图像生成text2image和视频生成text2video）主要采用Latent Stable Diffusion的方案框架。为了减少计算量，图像/视频等模态的数据（噪声）先经过VAE压缩得到Latent Vector，然后在文本信息的指导下进行去噪，最后生成符合预期的图像或视频。

排行榜: (T2I, ImageEdit, T2V, I2V, )

Vbench
lmarena
artificialanalysis
当前主流的多模态生成模型（如图像生成和视频生成）主要采用Latent Stable Diffusion的方案框架。为了减少计算量，图像/视频等模态的数据（噪声）先经过VAE压缩得到Latent Vector，然后在文本信息的指导下进行去噪，最后生成符合预期的图像或视频。
当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程，充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段，如先进行模态对齐的一阶段预训练，然后进行二阶段的参数微调。

2023年12月19日
分类于 Artificial Intelligence
需要 1 分钟阅读时间

Understand deeper ： Why xxx is useful?

导言

明白设计(数据构造，模型设计, 训练流程)的有效性，是抓住问题核心的关键。有助于在众多的AI论文里筛选出有效结论。

一些AI大厂只是通过不断的微调，消融尝试，堆砌最新的trick方法达到SOTA，再提出一些听上去make sense的观点来发论文。但是其观点的可迁移性难以保障。
但是一些研究人员专注在AI的有效性，可解释性的探索：虽然难有直接产出，但是对AI技术的未来方向提供了宝贵的信息。（e.g., 研究模型参数和层的有效性，流程的必要性）

通过这些宝贵的信息，才能渐渐知道能被时间检验过的经验是什么。

本文将聚焦于归档有效性相关的工作。