gigaGPT 是一个训练具有数百亿参数的大型语言模型的最简单实现,代码量仅有500多行,灵感来自于Andrej Karpathy的nanoGPT,专为Cerebras硬件进行优化,能够在大规模集群上运行,如同GPT-3大小的模型。