Euclidean Fast Attention (EFA)算法的实现。该算法是一种高效的注意力机制,显著降低了计算成本,同时保持高性能,适合需要快速处理大量数据的场景。
FlashAttention-2是一种从头编写的算法,可以加快注意力并减少其内存占用,且没有任何近似值。