豆包大模型团队于4月10日正式宣布开源首个多语言类SWE数据集MELT SWE Bench。该数据集基于SWE Bench开发,旨在为大模型自动修复bug的能力提供评估与优化支持,填补了多语言场景下的技术空白。
MELT SWE Bench的创新之处在于覆盖了Python之外的七种主流编程语言,突破了传统单语言评测的局限性。这一扩展使其成为首个真正适配全站工程实践的评测基准,可更全面地验证大模型在不同编程环境下的bug修复效能。
通过开源这一数据集,研究者和开发者能够更精准地评估大模型在自动修复bug任务中的表现,同时为跨语言场景下的工程实践提供标准化参考。此次发布进一步推动了AI技术在软件工程领域的应用深度与广度。