Taming the Exponential: A Fast Softmax Surrogate for Integer-Native Edge Inference
提出了一种针对Transformer模型中Softmax计算瓶颈的快速近似方法HCCS,优化了int8推理速度并保持精度。
- 提出了Head-Calibrated Clipped-Linear Softmax (HCCS),一种softmax的快速替代方案。
- HCCS针对AMD Versal AI Engines的int8 multiply accumulate (MAC)单元进行了优化。