Anthropic宣布了一种新的人工智能工具控制你的电脑和执行简单的任务。
“计算机使用”可以移动光标、打字和执行诸如填写表格或订购披萨之类的操作。
该工具仍处于测试阶段,有一些奇怪的结果,比如“休息”来搜索公园的照片。
感谢您的报名!转到时事通讯偏好
Anthropic宣布对Claude进行重大更新,这意味着人工智能模型可以控制计算机执行移动光标、输入文本和浏览互联网等操作。
这个名为“电脑使用”的新功能还在公测阶段。它使其最新的人工智能模型克劳德3.5十四行诗(Claude 3.5 Sonnet)能够以类似于人类的方式开始使用计算机。
这是一个显著的转变,从人工智能执行特定任务到通用的通用应用程序。它可能会对工作世界产生影响,并为竞争激烈的人工智能竞赛增加一个新的维度。
该公司周二表示,该功能可以通过Anthropic的API访问,Asana、Canva和DoorDash等公司已经开始探索在其工作流程中使用计算机的可能性。
在Anthropic分享的演示视频中,克劳德可以通过滚动客户关系管理页面来查找相关信息,从而填写供应商申请表。然后,它自主地完成表单中的步骤并提交表单。
“这个例子代表了人们不得不做的许多苦力工作,”Anthropic的研究员萨姆·林格在视频中解释说。
Anthropic欣然承认这个模型并不完美,也犯了一些错误。
Anthropic在其博客中表示:“在这个阶段,它仍处于试验阶段,有时很麻烦,容易出错。”该公司还补充说,它希望随着时间的推移,这个工具会变得更好。Anthropic在博客中提到的一个“有趣”的错误包括克劳德短暂地停止了编码演示,以搜索黄石国家公园的照片。在另一个案例中,它不小心点击停止录制会话,这意味着它丢失了镜头。
Anthropic的一些工程师要求该工具订购足够一群人吃的食物——克劳德选择了披萨。Anthropic的克劳德关系主管亚历克斯·阿尔伯特(Alex Albert)在一篇X帖子中说,他们用它来浏览在线食品配送平台DoorDash,“大约一分钟后,我们看到克劳德决定给我们订一些披萨。”
宾夕法尼亚大学(University of Pennsylvania)沃顿商学院(Wharton School)副教授伊森?莫里克(Ethan Mollick)是该软件的早期测试者,他在博客中讲述了自己如何使用该软件帮助高中生制定教案。
他说:“感觉就像把任务委托给别人,而不是自己管理。”
莫里克还指示公司根据“共同核心”(Common Core)(一套针对学生的教育标准)来布置作业,并将作业放入电子表格中。他说,聊天机器人需要他的帮助才能完成每一步,而克劳德下载了一本书,在网上查找教案和共同核心标准,并填写教案电子表格。
他说结果“还不错”,他没有发现任何明显的错误。他写道:“我只是把一项复杂的任务委派给了电脑,然后离开电脑,稍后再回来看看它做了什么(这个系统相当慢)。”
平面设计平台Canva正在测试电脑的使用,看看它如何帮助设计创作。该公司的人工智能产品主管Danny Wu告诉VentureBeat,“我们的团队正在发现节省时间的方法,这可能会改变用户的游戏规则。”
Anthropic建议人们在使用该工具时采取预防措施,以防止网络攻击等意想不到的后果。
它建议采取措施防止提示注入,这是一种网络攻击,即一个人提示人工智能模型改变其预期行为以达到邪恶目的。
在Anthropic的模型卡附录中——一份概述了一些性能和安全考虑的报告卡——该公司建议“使用专用的虚拟机,限制对敏感数据的访问,限制对所需域的互联网访问,并在敏感任务的循环中保持一个人。”
包括竞争对手OpenAI、Cohere和微软在内的人工智能巨头,都在竞相开发具有代理能力的新人工智能模型——一种具有一定程度自主权的系统,而不是对提示做出反应。这是风投纷纷涌入的细分行业,近几个月来,11x和PolyAI等初创公司都进行了火热的融资。
虽然OpenAI的ChatGPT桌面应用程序允许用户与聊天机器人互动并立即提出问题,但Claude的自主功能在生态系统中尚属首次。微软本周还宣布,下个月将为企业提供创建自己的自主人工智能代理的能力,此前Salesforce上个月也采取了类似举措。
OpenAI最近以1570亿美元的估值获得了66亿美元的融资,成为硅谷最有价值的交易之一。Anthropic远未达到如此令人眼花缭乱的融资高度。根据PitchBook的数据,它目前的估值约为194亿美元,但这个庞然大物仍在吸引投资者的关注。
它最大的支持者是亚马逊,亚马逊已经向该公司投资了40亿美元,并与它合作,在亚马逊的生成式人工智能平台Bedrock上提供其人工智能模型。
今年9月,The Information报道称,在融资谈判中,Anthropic的估值为400亿美元,这表明投资者对自主人工智能代理的兴趣和竞争正在加剧。Anthropic没有立即回应Business Insider的置评请求。