节目

[人人能懂] 从思想直连、逻辑闭环到奖励校准

所属专辑: AI可可AI生活
最近更新: 14小时前时长: 28:47
AI可可AI生活
扫码下载蜻蜓app
听书/听小说/听故事
4.5亿用户的选择
节目简介

你有没有想过,两个AI协作,能不能像科幻片里那样,直接“心灵感应”?我们又该如何判断,AI给出的正确答案,究竟是真懂了还是蒙对了?本期节目,我们将通过几篇最新论文,一起探索AI如何学会“读心术”进行合作,如何像侦探一样构建“逻辑闭环”,甚至如何从答案出发“倒着想”来优化学习。我们还会揭示AI为何会“越学越笨”,以及最聪明的AI或许拥有的终极能力——知道何时该“举手求助”。

00:00:36 当机器学会了“读心术”

00:05:58 你是怎么对的?比“你对不对”更重要

00:10:35 先有答案,再有过程:AI推理的逆向工程学

00:16:33 AI越学越笨?我们可能一开始就教错了

00:22:49 聪明人的超能力:知道何时该“求助”

本期介绍的几篇论文:

[CL] Thought Communication in Multiagent Collaboration

[CMU & Meta AI & MBZUAI]

https://arxiv.org/abs/2510.20733

---

[LG] DAG-Math: Graph-Guided Mathematical Reasoning in LLMs

[ University of Warwic & Google DeepMind & UC Berkeley]

https://arxiv.org/abs/2510.19842

---

[LG] No Compute Left Behind: Rethinking Reasoning and Sampling with Masked Diffusion Models

[Columbia University & New York University]

https://arxiv.org/abs/2510.19990

---

[LG] KL-Regularized Reinforcement Learning is Designed to Mode Collapse

[New York University & EPFL]

https://arxiv.org/abs/2510.20817

---

[CL] Ask a Strong LLM Judge when Your Reward Model is Uncertain

[Georgia Institute of Technology & Amazon]

https://arxiv.org/abs/2510.20369

评论
还没有评论哦

该专辑其他节目

回到顶部
/
收听历史
清空列表