原生稀疏注意力(Native Sparse Attention, NSA)技术通过让模型在计算注意力时只关注最重要的信息,大幅减少了计算量,从而加速了注意力计算的速度。NSA 技术在性能上实现了效率与精度的双重提升,尤其在处理长文本序列时表现出色。