1.1 研究背景与动机
人工智能的发展源远流长,1956年达特茅斯会议定义了人工智能为可从环境收集信息并有效交互的人工生命形式。受此启发,米斯基团队1970年构建的“复制演示”机器人系统揭示了人工智能研究面临的诸多挑战,此后该领域分化为多个专业子领域。如今,大语言模型(LLMs)和视觉语言模型(VLMs)的革新使创建符合整体论理想的新型人工智能体成为可能,也促使人工智能社区从构建被动任务模型向动态智能体模型转变。本文旨在探索融合多种能力的人工智能模型,强调其在多领域应用中的潜力,同时关注相关伦理问题,为多模态智能体领域的发展提供全面视角。
1.2 相关研究概述
本文主要涉及大型基础模型、具身人工智能和交互式学习等方面的研究。LLMs和VLMs在解决复杂问题上表现出色,具身人工智能利用LLMs进行任务规划,交互式学习使AI智能体能够从训练和实时交互中学习与改进。这些研究为Agent AI的发展奠定了基础,例如在机器人任务规划中,LLMs可将自然语言指令分解为子任务,结合环境反馈提升任务执行能力。
1.3 研究目的与概述
本文聚焦于多模态智能体Agent AI,旨在提供其在当代应用中的深度理解,包括原理、作用、方法、评估、伦理考量及未来趋势等方面的全面知识。Agent AI系统通过理解多模态感官输入在环境中生成有效行动,在多领域应用广泛,但面临数据隐私、可解释性等挑战。通过整合新兴技术,Agent AI有望推动多模态交互的发展,实现更智能、自然和适应性强的人机交互。