学习书库

学习书库

当前位置: 首页 -> 学习书库 -> 正文

DeepSeek:具身智能时代人机交互新模式面对的挑战

作者:刘晓力 来源:中国社会科学报 阅读次数: 日期:2025-03-07

2025年新春之际,中国研发的DeepSeek大模型爆火出圈,如同平静湖面投入一颗石子,在国际舞台激起层层涟漪,其震荡效应迅速扩散至国际政治、经济、社会和思想文化领域。

DeepSeek的R1-Zero模型最重要的价值在于,“推理即训练”的自我进化突破了自GPT大模型以来的人类输入瓶颈。其普惠开源的公益举措,更是使人工智能摆脱了长期以来大数据、大算力、大模型、大能耗的“闭源竞争”生态,实现了裂变式的创新。由此引发了我们深度探索的问题是DeepSeek的底层逻辑究竟包含了哪些创新?未来人机交互模式将发生哪些变革?在可见的智能时代,DeepSeek能否激发一种新的人机自然交互模式的演化机制,实现人类与AI的互惠共生?

DeepSeek的底层逻辑体现了五大创新。第一,在Transformer基座上采用混合专家(MOE)架构和多头潜在注意力(MLA)机制,提升了模型训练的降本增效能力。第二,运用纯强化学习(RL)驱动,减少了对人工标注数据的依赖,实现了数据处理的自我进化。第三,独创了一种模型蒸馏方法,对计算推理结果进行验证标注,提高了小模型的推理效果,降低了计算成本。第四,摒弃随机采样,采用动态采样建立分布式框架,实现动态内存管理,从而大幅降低了计算复杂性。第五,多模态架构折叠算法支持文本、图像、音频等多模态的高效交互。

这些创新将推动AI for Science研究范式的变革,促进其他垂直领域不可预期的丰富成果产出,并通过AI创新引领哲学社会科学研究规范的变革。

以DeepSeek为契机,未来人机交互模式将发生哪些变革?作为对大模型Scaling Law一统天下路线的修正,2024—2025年,人工智能落地物理世界、AI智能体(AI Agent)研发成为技术演进的新趋势和产业风潮。而在多主体、多模态、跨现实环境中的人机交互,带来了前所未有的挑战。生成式人工智能大语言模型ChatGPT和Sora凭借惊艳的语言生成能力和目眩的幻觉画面,正式开启了一场前所未有的人机交互大实验。依托大数据、大算力,人类语言优位的“百模大战”引发全球竞争,AI加速度发展的“摩尔定律”效应倍增。然而,这种版本的人机交互并不自然,因为大模型只在虚拟环境中通过大量人类标注接受预训练,借助海量数据生成预测模型或图像识别模式,无法生成“与人类互动并参与日常物理世界中依赖常识的感知—行动闭环”的人机自然交互机制。因此,让AI落地物理世界,致力破解“莫拉维克悖论”的呼声日益高涨。

近日,在AI世界峰会上,美国斯坦福大学教授李飞飞再度疾呼“以人为本”,提出空间智能导航、目标导向行动的Agent AI新范式,特别强调实现AI与人和物在现实空间中的交互。其核心在于多智能体、多模态、跨现实适应性具身交互。此举不仅有望在技术层面极大拓展AI认知的边界,更可能重塑人类对智能的本质理解,并深入探索人机交互新模式。如果引入生物智能体演化的新视角,将AI视为不断进化、可称为“新物种”的人工生命,同时人与AI的自然交互过程也将催生出新的生命形态,那么,借助强大的AI伦理护城河技术加持,人类能否找到共享意图和共享能动性(Agency)的人机互惠交互演化机制从而实现人与AI的互惠共生?因此,DeepSeek引发的创新浪潮,可能会促使具身智能时代的人机交互新范式成为下一阶段哲学社会科学的重大议题。

DeepSeek以低成本算法优化获得高效能,助力具身智能时代人机交互的优势,首先体现在开源引智所带来的创新空间。这一举措唤醒了全球范围内的创新浪潮。虽然基于LLM和LVM两大基座开发新模式的人机交互大模型不失为一种选择,但要实现人与AI的多主体、多模态、跨现实具身交互,仍面临若干困境。其中,最大的问题是AI智能体在与人类交互时难以实现意图与行动的对齐。跨模态对齐与一致性问题也不容忽视。目前,缺乏整合多种感官模态(如图像、3D视觉、文本、触觉和听觉)的高质量统一数据集。如何在虚拟和现实环境中实现无缝的跨现实人机交互,是未来的重大难题。复杂环境认知与因果推理问题也是一大挑战。具身智能体需要在复杂环境中理解自然语言指令,并执行长期任务,还要具备因果推理与反事实因果推断的能力,而现有的数据驱动方法难以处理因果关系,在未见环境中的实时响应与适应性也不足。同时,评估与标准化的问题亟待解决。目前缺乏全面评估具身模型能力的基准,这使得模型性能难以量化。缺乏泛化能力基准将阻碍技术的快速迭代与推广。随着DeepSeek引发的开源与算法优化创新,杰文斯效应不可避免,新一轮能源竞争也将随之而来。

(作者系中国人民大学哲学院教授、北京大学博古睿学者)