Model Migrate Accuracy

导言

之前将megatron GPU实现迁移到NPU时，对齐精度，通过打印hook+小算子，只是打印 hash、l1_norm、mean、sum实现，能实现tensor hash值一模一样。

但是后来为了性能不得不上融合算子，就不能实现hash值相同；

到现在RL训推一致性，需要对齐训练和推理的精度，有两个问题： 1. 由于激活值在通过attention，mlp moe等模块时，激活值的shape和值域都会变化，如何判断对比两者的在哪个模块有明显的变化。需要不同模块能通过norm类似的操作来统一误差标准，然后我能拉一个每个不同模块的误差曲线，能通过可视化发现误差陡增的位置就是问题所在。 2. 主要我不希望dump每个模块的输出来进行位数的对比，这样太耗时和消耗空间，但是统计值l1_norm、mean、sum、min和max好像已经不够了，是不是需要加上p95等分位值，或者对于tensor变量一些metrics：kl loss才能更好的对比两个比较两个tensor的差异，且是数值可比较的。