模型是多模式的,可以处理各种类型的数据(文本、图像、视频、音频等),并找到它们之间的联系。代理可能有权访问浏览器的内容,从而允许其查看、解释屏幕上出现的元素并与之交互。
Google SEO 桑达尔·皮查伊 (Sundar Pichai) 在 Google 2024 主题演讲中谈到了 Gemini 的多模态及其在不同类型数据之间寻找联系的能力。
值得注意的是,有关内部运作和对特定技术的依赖的信息基于推测。
正如我已经提到的,我认为 Jarvis 旨在自动化日常基于 伯利兹电话数据 网络的任务。 Jarvis 的独特之处在于它与 Google Chrome 网络浏览器的紧密集成。然而,贾维斯在这一领域并不孤单。
人择计算的使用
Claude背后的公司 Anthropic也推出了自己的人工智能代理,称为Computational Use。该代理能够与 Web 浏览器之外的各种应用程序进行交互。 Anthropic 的代理于 2024 年 10 月进入公开测试阶段,展示了其移动光标、按下按钮和输入文本的能力,就像人类用户一样。
尽管 Jarvis 和 Anthropic 在开发阶段和操作范围上存在差异,但它们都有一个共同的目标:通过模仿人类与计算机的交互来自动化任务。两个代理都可能依赖复杂的屏幕捕获和解释机制来理解用户请求的上下文并采取适当的操作。
OpenAI运营商
OpenAI 正在推出“Operator”,这是一种自主人工智能代理,旨在代表用户执行任务,例如编写代码和预订旅行。据彭博社报道, Operator 计划于 2025 年 1 月上市。
Sam Altman 谈人工智能代理
Sam Altman 回应Reddit AMA
目标工具成型者
Meta AI Research 推出了 Toolformer,这是一种能够自主使用外部工具来提高其在各种任务中的性能的语言模型。在论文“ Toolformer:语言模型可以自学使用工具”中详细介绍了该模型,该模型经过训练以确定要调用哪些 API、何时调用它们、要传递哪些参数以及如何将结果合并到未来的标记预测中。
这种自我监督的方法只需要为每个 API 进行少量演示,从而使模型能够有效地使用计算器、问答系统、搜索引擎、翻译系统和日历等工具。
人工智能代理的挑战
总体而言,人工智能代理带来了许多挑战和考虑因素,特别是在隐私、准确性和道德影响方面。
隐私问题
虽然自动化枯燥且耗时的任务似乎很有吸引力,但这种便利却伴随着一种不舒服的感觉。我是否希望 Google 或任何其他公司拥有对我的计算机的完全访问权限?这个想法让我深深困扰。