DebugBench-一个LLM调试基准平台

所有AI工具AI其他工具

DebugBench-一个LLM调试基准平台

DebugBench是一个包含4,253个实例的LLM调试基准，涵盖了C++、Java和Python中四个主要的漏洞类别和18个次要类别。为构建DebugBench，作者从LeetCode社区收集了代码片段，使用GPT-4...

标签：AI其他工具开源语言模型引擎漏洞评估工具硬件加速语言模型

链接直达手机查看

DebugBench是一个包含4,253个实例的LLM调试基准，涵盖了C++、Java和Python中四个主要的漏洞类别和18个次要类别。为构建DebugBench，作者从LeetCode社区收集了代码片段，使用GPT-4向源数据植入漏洞，并确保了严格的质量检查。
DebugBench的特点:
1. 包含4,253个实例
2. 涵盖C++、Java和Python中的主要和次要漏洞类别
3. 使用GPT-4植入漏洞并进行质量检查
4. 评估多个商业模型和开源模型的调试性能
5. 比较LLM的调试和代码生成之间的相关性

DebugBench的功能:
1. 评估语言模型的调试能力
2. 分析不同漏洞类别对调试性能的影响
3. 研究运行时反馈对调试性能的影响
4. 帮助LLM在调试方面的发展

相关导航

AI Room Generator-轻松设计梦想房间

AI Room Generator-轻松设计梦想房间

AI Room Generator 是一个创新的平台，用户可以通过上传房间照片，利用人工智能探索无尽的设计选项，轻松实现理想的室内设计。

SemaDB-低成本易用的AI向量搜索数据库

NSemaDB-低成本易用的AI向量搜索数据库

SemaDB是一个完全托管的向量搜索和数据库解决方案，专为AI应用设计，提供了简单易用的界面和低廉的成本，适合各种规模的项目。

Tell Me A Story-激发孩子想象力的故事创作应用

Tell Me A Story-激发孩子想象力的故事创作应用

Tell Me A Story 是一款专为儿童设计的iPhone应用，能够创造美丽、引人入胜和令人兴奋的故事。用户可以生成多种语言的故事，配有叙述，并与家人和朋友分享。该应用程序还提供保存喜欢的故事及其美丽图像的选项，并围绕特定道德主题构建故事。

LegalForce (リーガルフォース) AI Contract Review Platform-提升合同审核质量与效率的AI平台

NLegalForce (リーガルフォース) AI Contract Review Platform-提升合同审核质量与效率的AI平台

LegalForce是一个AI合同审核平台，旨在提高合同审核的质量和效率。它结合了尖端技术与法律专业知识，支持从风险识别到研究、编辑和案件管理的整个合同审核过程。通过利用技术，LegalForce强化了之前劳动密集和耗时的合同审核流程。

AI Tools Directory by Tap4 AI-发现最好的AI工具

NAI Tools Directory by Tap4 AI-发现最好的AI工具

Tap4 AI工具目录提供超过1000个AI工具和200个类别，旨在帮助用户免费发现和访问他们最喜欢的AI工具。

sanctuary.ai-创建人类智能的通用机器人

sanctuary.ai-创建人类智能的通用机器人

sanctuary.ai致力于开发世界上首个具有人类智能的通用机器人，旨在通过人工智能赋能机器人，解决各种实际问题。

Pgvector-Postgres 的开源向量相似性搜索

Pgvector-Postgres 的开源向量相似性搜索

NPgvector-Postgres 的开源向量相似性搜索

Pgvector 是一个为 PostgreSQL 提供向量相似性搜索的开源扩展，能够高效处理大规模数据集，支持多种距离度量，并与 PostgreSQL 无缝集成，提供简单易用的 API。

Coindive-智能加密投资组合跟踪平台

NCoindive-智能加密投资组合跟踪平台

Coindive 是一个独特的加密投资组合和观察列表跟踪平台，利用社区见解和 AI 技术监控和分析各种加密货币社区，提取最相关的信息、更新和讨论，帮助投资者及时了解他们感兴趣的项目，避免每日在多个平台上翻阅成千上万条消息。

Parcha-AI驱动的合规解决方案

NParcha-AI驱动的合规解决方案

Parcha通过自动化复杂的验证流程，为金融机构和高风险行业的企业提供快速且准确的合规报告，旨在简化和加速合规工作流。

Athina AI-帮助开发者监控和评估LLM应用

Athina AI-帮助开发者监控和评估LLM应用

Athina AI是一款旨在帮助开发者监控和评估其大语言模型（LLMs）应用程序的工具，专注于生产环境中的性能监控、故障检测以及提示管理。通过Athina，开发者可以实时跟踪LLMs的表现，及时发现并修复模型的幻觉问题，从而提升应用的可靠性和用户体验。

AI Bypasser-人性化处理AI生成文本

NAI Bypasser-人性化处理AI生成文本

AI Bypasser是一个旨在重写AI生成文本的工具，确保内容更具人性化，能够绕过AI检测。它帮助用户生成无抄袭、可读性强的人类文本。只需输入文本并点击'人性化'，工具将重写文本，使其100%人性化且无抄袭。

Bookshelf: A Better Reading Tracker-用AI追踪和组织阅读

Bookshelf: A Better Reading Tracker-用AI追踪和组织阅读

Bookshelf 是一款旨在帮助用户追踪、组织和记忆阅读内容的应用程序。通过智能功能，用户可以轻松记录所读书籍的信息，管理阅读进度，并获得个性化的推荐，从而提升阅读体验。

WhatDo-智能旅行规划平台

NWhatDo-智能旅行规划平台

WhatDo是一个先进的AI驱动旅行规划平台，旨在简化和提升旅行体验，提供个性化的旅行计划、实时预订选项和丰富的目的地信息，适合休闲度假者和冒险探索者。

Kadoa-智能化网络爬虫工具

Kadoa-智能化网络爬虫工具

Kadoa是一个基于AI的网络爬虫工具，能够自动从各种来源提取数据。它利用生成式AI创建自定义爬虫，并自动提取所需数据。用户只需定义要提取的数据、指定来源及提取时间表，Kadoa就能生成爬虫并适应网站结构的变化，准确提取数据并根据需求进行转换，最终通过强大的API以任意格式接收提取的数据。

Zaia-创建专属AI，提升客户服务与销售

Zaia-创建专属AI，提升客户服务与销售

Zaia是一款让用户能够创建个性化人工智能的工具，旨在提升客户服务质量和销售能力。用户可以通过Zaia.app自定义AI代理，训练其使用自己的数据，调整外观，并将其集成到多种平台上，如网站、WhatsApp和Instagram。该项目帮助企业提高销售额和运营效率。

OhMyGoat – AI based Soccer picks-基于AI的足球投注推荐

OhMyGoat – AI based Soccer picks-基于AI的足球投注推荐

OhMyGoat利用AI技术分析数千项统计数据，实时识别足球比赛中的有趣投注机会，如即将进球等。用户无需编码即可配置自定义提醒，并创建精细化策略。

Ideogram-创意伴侣，激发创新

Ideogram-创意伴侣，激发创新

Ideogram不仅仅是一个AI工具，它是一个培养创新和表达想法的创意伴侣，提供多种功能来增强创造力。

Causa-利用因果机器学习优化业务操作

NCausa-利用因果机器学习优化业务操作

Causa是一个先进的平台，致力于利用因果机器学习优化各行业的业务操作。它提供了一个全面的数据分析生态系统，使组织能够做出数据驱动的决策，从而提高效率、减少浪费并提升盈利能力。Causa无缝集成到现有应用程序中，通过直观且可扩展的云原生解决方案提供强大的分析和可操作的智能。

暂无评论

暂无评论...

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3