NSA是一种硬件适配且可原生训练的稀疏注意力机制,专为超快速长上下文训练与推理设计。它通过动态分层稀疏策略、粗粒度词元压缩和细粒度词元选择等技术,显著加速推理过程并降低预训练成本。NSA在现代硬件上进行了优化,适用于通用基准测试、长上下文任务及基于指令的推理任务,表现出色。