这个开源项目的功能是提供一个超大规模的中文语料集(MNBVC),包含主流文化和小众文化,甚至火星文的数据。该数据集可以用于机器学习和chatGPT训练。
开源项目 "BELLE" 是一个基于Stanford Alpaca的中文对话大模型引擎,共有70亿参数,经过优化。该项目只使用由ChatGPT生产的数据进行模型调优,不包含任何其他数据。