这是一个关于出色LLM推理的小集合,包含文献、博客和文档以及代码,支持TensorRT-LLM、流式LLM、SmoothQuant、WINT8/4、连续批处理、FlashAttention、PagedAttention等技术。