Artificial Intelligence¶
Next of My Ascend Career
导言
作为卖NPU AI加速卡的软件员工, 目标是将昇腾的底层算力与上层多模态应用需求精准对接,释放昇腾AI算力,让客户看到NPU的性能、性价比、易用性、客户自身业务的使用需求。
AI Post Traning: DPO
导言
在LLM对齐的早期探索中,研究者们建立了两种影响深远的基础范式。
- 一种是基于强化学习的PPO,它将经典的RL框架引入LLM微调,通过复杂的系统协调实现了强大的性能;
- 另一种是DPO,它通过深刻的理论洞见,将对齐问题转化为一个更简洁的监督学习问题,显著提升了训练的稳定性和效率。
鉴于PPO-RLHF的复杂性,研究者们开始寻求更简洁、更直接的对齐方法。直接偏好优化(Direct Preference Optimization, DPO)应运而生,它巧妙地绕过了显式的奖励建模和复杂的RL优化循环,为偏好对齐提供了一个优雅的替代方案。
这篇文章介绍DPO, 和Step-Video论文介绍了Video-DPO, 这类训练中最后通过人工标注优化的方法。
必看好文6
AI Model Visualization
导言
作为一个AI初学者,总是遇到以下场景:
- 客户正在基于NV开发一个AI模型,需要同步的做昇腾适配。手上只有NV下的代码。
- 往往很难将论文里的AI模型的图,和代码里的每一层以及参数对应起来。
设计期望:
- 在模型开发的过程中,能简单插入,来明确当前模块的大致信息。
- 名称,类型(卷积层,池化层),输入/输出/参数, 执行的时间(第一次)。
- 可视化
- 格式兼容cpprinter。
- 能体现出TP,CP等并行策略的效果。
大致思路:
- 还是借助
chrome://tracing格式,来设计类似PyPrinter的工具。 - 早期可以使用
VizTracer代替。
AI Hardware & Accelerators
导言
- 牧本定律由1987年牧村次夫提出,半导体产品的发展历程总是在“标准化”和“定制化”之间交替摆动,大概每十年摆动一次,揭示了半导体产品性能功耗和开发效率之间的平衡,这对于处理器来说,就是专用结构和通用结构之间的平衡—专用结构性能功耗优先,通用结构开发效率优先。
- 贝尔定律是由戈登贝尔在1972年提出的一个观察,即每隔10年,会出现新一代计算机(新编程平台、新网络连接、新用户接口、新使用方式),形成新的产业,贝尔定律指明了未来一个新的发展趋势,这将会是一个处理器需求再度爆发的时代,不同的领域、不同行业对芯片需求会有所不同,比如集成不同的传感器、不同的加速器等等。
生产特殊的硬件:
- 带来的加速比和能耗收益,达到10倍百倍都是很正常的。
- 但是开发成本也是巨大的,包括芯片设计,流片成本,软件栈的开发,商业化的推广。
- 开发周期也相当长。需要对当前的技术的未来具有前瞻性。不要生产出来就过时了。
常见的例子,用于并行计算的GPU, H265视频编解码单元, Google TPU芯片、车载芯片、手机AI芯片。
AI领域的至今不变的特点:
- 基于反向传播和梯度/参数更新的整体逻辑
- 需要保存大量的参数来表征问题,以高维矩阵的形式存储,所以矩阵运算十分常见
- 训练由于要计算并更新梯度,一般是计算密集。但是推理一般是访存密集。
现在大火的transformer,除非它就是AGI的最理想模型,不然为一个模型专门定制硬件,很容易钱就打水漂了。为自己的算法模型定制一块AI芯片,如特斯拉。但应用面越窄,出货量就越低,摊在每颗芯片上的成本就越高,这反过来推高芯片价格,高价格进一步缩窄了市场,因此独立的AI芯片必须考虑尽可能适配多种算法模型。1
当然,也可以从workload的应用出发,分析有什么重复的热点,值得做成专用的电路单元。
Ideas around T2I2V models
导言
当前主流的多模态生成模型(如图像生成text2image和视频生成text2video)主要采用Latent Stable Diffusion的方案框架。为了减少计算量,图像/视频等模态的数据(噪声)先经过VAE压缩得到Latent Vector,然后在文本信息的指导下进行去噪,最后生成符合预期的图像或视频。
排行榜: (T2I, ImageEdit, T2V, I2V, )
- Vbench
- lmarena
-
当前主流的多模态生成模型(如图像生成和视频生成)主要采用Latent Stable Diffusion的方案框架。为了减少计算量,图像/视频等模态的数据(噪声)先经过VAE压缩得到Latent Vector,然后在文本信息的指导下进行去噪,最后生成符合预期的图像或视频。
- 当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程,充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段,如先进行模态对齐的一阶段预训练,然后进行二阶段的参数微调。

