节目

豆包大模型团队正式开源首个多语言类SWE数据集

主播: DJ阿楠
最近更新: 12小时前时长: 00:24
网事头条|听见新鲜事
扫码下载蜻蜓app
听书/听小说/听故事
4.5亿用户的选择
节目简介

# 豆包大模型团队开源

# 多语言类SWE数据集发布

# MELT SWE Bench评测基准

# 大模型自动修复能力评测

# 主流编程语言bug修复

# 全站工程评测基准覆盖

豆包大模型团队于4月10日正式宣布开源首个多语言类SWE数据集MELT SWE Bench。该数据集基于SWE Bench开发,旨在为大模型自动修复bug的能力提供评估与优化支持,填补了多语言场景下的技术空白。
MELT SWE Bench的创新之处在于覆盖了Python之外的七种主流编程语言,突破了传统单语言评测的局限性。这一扩展使其成为首个真正适配全站工程实践的评测基准,可更全面地验证大模型在不同编程环境下的bug修复效能。
通过开源这一数据集,研究者和开发者能够更精准地评估大模型在自动修复bug任务中的表现,同时为跨语言场景下的工程实践提供标准化参考。此次发布进一步推动了AI技术在软件工程领域的应用深度与广度。

评论
还没有评论哦
回到顶部
/
收听历史
清空列表