Movie101是一个大规模的中文电影理解基准,包含101部电影,配备音频描述(AD)。数据集包含30,174个解说片段,总计92小时。基准包含两个任务:电影片段解说(MCN)和时序解说定位(TNG),旨在推动中文电影理解领域的研究与应用。
Innovatiana是一个专注于数据标注外包的平台,为AI模型提供高质量的数据注释服务,帮助企业高效完成模型训练、数据收集及处理任务。
ConsoleX是一个综合性的LLM实验平台,结合了聊天接口、LLM API实验和批量评估,支持所有主流LLM,并提供比官方实验室更多的增强功能。
一个通过模拟面试过程来评估大型语言模型(LLMs)能力的框架,让一个LLM扮演面试官的角色,通过提供反馈和追问问题来全面评估其他LLMs的能力。
一个测试AI写作能力的基准项目,通过要求AI在短故事中融入10个强制性元素(如角色、物品、核心概念等),评估其创意写作的完整性和连贯性
该项目探讨了五种语言大模型在四种语言的五个任务上的表现差异,通过特定方法优化性能,虽然相较于传统方法仍有不足,尤其在处理敏感问题时需注意偏差。尽管LLM在某些方面表现出优势,仍无法完全取代人类标注。文章还讨论了聚合模型标注与人类标注在速度、准确性、成本和偏见方面的权衡。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型