人工智能在教育与教育科技•2026年2月12日•By 3L3C

LLM在“读心测试”上表现惊人，但小改动就会自信犯错。把争论落到教育自动化：用语音助手采集意图，用工作流约束执行。

心智理论大语言模型语音助手教育科技工作流自动化个性化学习

Featured image for LLM会“读心”吗？语音助手与教育自动化的真相

LLM会“读心”吗？语音助手与教育自动化的真相

LLM 在“读心测试”上能拿到接近 92% 的正确率——这不是科幻标题党，而是斯坦福研究者 Michal Kosinski 把经典心理学“错误信念”实验改写成文本题后，观察到 GPT-3.5 的表现。问题是：它到底是在理解“Sam 以为袋子里是巧克力”，还是在做更高级的文字接龙？

这件事跟“人工智能在教育与教育科技”有什么关系？关系很直接：教育场景里真正值钱的自动化，不是把按钮换成语音，而是让系统更像一个靠谱助教——能听懂老师的意图、理解学生的误解、知道下一步该问什么、该提醒什么。你也可以把它理解成工作流层面的“意图理解”。如果 LLM 只会产出听起来对的句子，教育自动化会变成隐形坑；如果它能稳定追踪人的信念与上下文，AI 语音助手就能把备课、批改、家校沟通、学习路径推荐变成可控的流程，而不是抽盲盒。

“Theory of Mind”到底在说什么？为什么教育自动化绕不开它

**结论先说：教育里的高质量自动化，本质上是“对人类意图与信念的建模”。**心理学把这种能力叫做 Theory of Mind（心智理论，ToM）：你能推断别人“想要什么、相信什么、误会了什么”。

这不是玄学。人类在婴儿期（研究显示约 13 个月左右）就开始发展这类能力。也正因为 ToM 是沟通与共情的底层组件，所以它与一些典型的社会认知差异有关（例如自闭谱系、精神分裂症等研究方向常会讨论 ToM 表现）。

把视角切到教育科技：

老师最常做的判断不是“学生对不对”，而是“学生为什么会这么想”。
优秀的辅导不是多讲一遍，而是识别学生的错误信念（比如把“密度”当“重量”、把“历史因果”当“时间顺序”）。
学习平台要做个性化学习，核心也不是题库多，而是能持续更新“学生此刻相信什么”。

所以当业界讨论“LLM 是否具备 ToM”时，我们不必纠结哲学帽子到底扣不扣得上。更实际的问题是：它能不能稳定、可验证地追踪人的意图与误解，从而让自动化流程更安全、更省心？

LLM 为何看起来像会“读心”：Kosinski 的错误信念测试

结论先说：在标准错误信念题型上，大模型确实能给出很像人类的答案，而且会随情节更新“角色的信念”。

Kosinski 用了两类经典 ToM 测试，并做了一些控制，尽量避免“模型背题”：

意外内容任务（unexpected contents task）：袋子里装爆米花，但标签写“巧克力”。问角色 Sam 以为里面是什么。
意外转移任务（unexpected transfer task）：John 把猫放篮子里离开，Mark 趁 John 不在把猫放箱子里。问 John 回来会去哪里找猫。

为了更像实验而不是闲聊，他做了几件很关键的事（对做教育测评的人尤其有启发）：

设计了17 个新故事，降低训练语料中出现原题的概率
每次测试重置对话状态，避免模型“记住自己刚说过什么”
temperature=0，减少随机性
收紧回答空间（例如填空），让判分更清晰

结果很吸睛：从 GPT-1、GPT-2、到 2020 年的 GPT-3-curie（约 67 亿参数）表现都很差；到 2022 年左右的 GPT-3.5（约 1750 亿参数）在这些题上通过率达到约 92%，接近“9 岁儿童水平”的对照说法。

如果你在做 AI 教育产品，这会让人很容易产生一个冲动：

“既然模型能追踪角色信念，那做个 AI 助教/语音助手，理解学生意图应该也不难吧？”

但下面这一段，才是把模型放进真实课堂前必须看懂的。

为什么“像理解”不等于“能可靠理解”：Ullman 的反击

结论先说：同一类 ToM 题，只做一些在现实里非常常见的小改动，GPT-3.5 会出现“自信但错误”的崩溃。

哈佛认知科学家 Tomer Ullman 基本不接受“要么测试无效、要么模型有 ToM”的二选一。他的观点很实用：

人类 ToM 测试对人类依然有效
但机器通过这些测试，仍然可能是“形式能力强”（语言模式匹配），不是“功能理解强”（真正理解信念）

他对 Kosinski 的故事做了几种微调，结果模型表现掉下悬崖。比如在“爆米花/巧克力袋子”里加入这些变化：

袋子是透明的（角色其实能看到内容）
角色不识字（看不懂标签）
可信朋友提前告诉她“里面是爆米花，别信标签”
甚至是 Sam 自己装了爆米花并贴错标签

在这些更贴近日常的设定里，模型仍可能坚持“她认为是巧克力”，而且给出很高置信度。

对教育与语音助手来说，这类错误很致命，因为它们会以“听起来合理”的方式出现：

学生明明已经看到提示（透明袋子），模型却还当作“没看到”
用户明明说“我不方便读屏”（不识字），语音助手还在重复让他“看一下按钮”
老师明明强调“这节课不要按以往套路解题”（朋友提示），系统仍按统计最常见路径推荐

Ullman 的提醒其实是在说：平均正确率不等于可靠性。教育产品最怕的是“偶尔错”，尤其当它错得很像对。

把争论落到业务：教育场景的 AI 语音助手，要具备哪种“意图理解”？

结论先说：与其问“LLM 有没有心智理论”，不如把它拆成可工程化的 4 个能力指标，并把工作流围绕指标来设计。

我更赞同这种做法：把 ToM 当成一组可以验收的能力，而不是一个哲学标签。对“AI 语音助手与自动化工作流”以及教育科技产品，下面四项最关键。

1) 信念追踪（Belief Tracking）：它能记住“谁知道什么”？

教育场景里，“谁知道什么”几乎每天都在变：学生、家长、任课老师、班主任、教务。

可验收的设计方式：

在会话状态里显式存 student_knowledge_state（概念掌握/误解假设）
明确“可见证据”来源：学生是否看过讲解？是否完成过练习？
同一问题换个说法再问一次，检查模型是否保持一致

2) 反常识鲁棒性（Edge-case Robustness）：小改动不能让它崩

Ullman 的实验告诉我们：透明袋子、不能读字、可信提醒，这些不是“刁难”，是现实。

在语音助教里对应的是：

学生说“我刚看过你上面的例题”，模型必须更新策略
老师说“这次按新教材口径”，系统不能继续用旧模板
用户说“我现在在走路不能看屏幕”，就别再给视觉步骤

3) 可解释的工作流（Workflow Explainability）：错也要能定位

教育自动化的正确打开方式，是把 LLM 放在“可审计”的流程里：

用规则/状态机做关键分支：测评判分、权限、通知发送
LLM 做生成：讲解、反馈措辞、问题改写、摘要
每次决策输出“理由+证据片段”（引用对话轮次或结构化字段）

一句话：让模型负责表达，让系统负责约束。

4) 防欺骗与安全边界：ToM 强也可能更会“忽悠”

原文也提到 ToM 与“欺骗”天然相关。放到教育里，风险不是模型故意骗你，而是它为了“完成任务”而过度迎合：

为了让家长满意而夸大进步
为了让学生情绪好而回避指出错误
为了“看起来懂”而编造学习数据

落地策略：

成绩、出勤、缴费等信息必须来自数据库，不让模型编
对建议类输出打上确定性标签：事实/推断/建议
关键话术（退费、心理风险、学业诊断）走人工复核

一套可落地的教育自动化方案：让语音助手真的“懂你在忙什么”

结论先说：把语音入口当成“意图采集器”，把 LLM 当成“任务规划器”，再用自动化工作流把任务执行固化。

给一个小型教育机构/学校教务团队的示例（你可以按自己的系统替换工具）：

语音采集：老师用语音说“把今天的课堂表现发给家长，重点说小李上课走神、但作业完成不错”。
结构化意图（LLM 输出 JSON）：
- 对象：小李（学生ID）
- 受众：家长
- 事实：作业完成情况（从系统拉取）
- 观察：走神（老师主观）
- 语气：中性、建设性
工作流执行：
- 调用 SIS/LMS 拉数据（作业/测验）
- 生成两版文案（短信/微信）供老师一键确认
- 记录到家校沟通档案
质量保护：
- 若检测到“高风险措辞”（例如贴标签、羞辱性语言），强制二次确认
- 若事实字段缺失，提示补充，不允许“猜”

这种做法的好处是：你不需要证明模型“真的读心”。你只需要让它在意图理解上稳定达标，并把它的弱点（边界案例、幻觉）锁在流程外。

你应该站哪一派？我的建议：别急着给模型发“懂人心”奖牌

结论先说：把 LLM 当成“很强的语言与模式系统”，在教育场景里用工程方法补上 ToM 缺口，收益最大、风险最小。

Kosinski 的结果值得兴奋：它说明大模型确实出现了某种“可用的信念追踪现象”。Ullman 的结果也必须认真对待：在你以为它理解的时候，它可能只是选了最常见的叙事模式。

教育科技走到 2026 年，大家真正缺的不是“再一个能聊天的机器人”，而是能把教学与教务拆成可靠流程的系统：个性化学习要依赖稳定的学习者模型，自适应教学要依赖可更新的误解假设，智能测评要依赖可审计的判分与解释，在线教育规模化更要依赖自动化工作流而不是人海运营。

如果你正在评估 AI 语音助手或要把 LLM 接入现有教务/教学系统，我建议你问团队一个更硬的问题：

当场景从“标准题”变成“透明袋子”那一刻，我们的系统会怎么做？