这个开源项目的功能是提供一个超大规模的中文语料集(MNBVC),包含主流文化和小众文化,甚至火星文的数据。该数据集可以用于机器学习和chatGPT训练。
chatgpt-corpus是一个开源项目,用于提供ChatGPT的中文语料库。该语料库包含了对话、小说和客服语料,用于训练大型模型。这个项目在GitHub上有一个plex仓库,并且有开源和机器学习的标签。