viva la vida

Saturday, March 22, 2025

Anthropic新招：Claude靠记笔记攻克复杂难题

在人工智能不断进化的当下，Anthropic公司为提升其AI助手Claude处理复杂多步骤任务的能力，找到了一个别出心裁却又极为有效的方法——让Claude在工作过程中记笔记。通过添加名为“刮板”的功能，Claude能够随时记录自己的想法，搭配精心设计的示例提示，其解决问题的能力实现了显著飞跃。

这个全新的系统主要通过“思考”命令来运作。从技术层面讲，它本质上是一个JSON命令，能有条不紊地跟踪Claude的思维过程。例如，在航空公司客户服务场景的Tau Bench框架测试中，优化提示后的Claude表现比基线高出54%。在处理多步骤任务时，Claude不仅能更好地遵守指令，还能大幅提升基于代理的人工智能系统的可靠性，而这些系统此前在这方面一直困难重重。即便在软件工程测试中，Claude也取得了1.6%的分数提升。

值得注意的是，新的“思考工具”与Claude之前添加的“扩展思维”特性有所不同。“扩展思维”助力Claude在生成答案前进行推理，而“思考工具”则在回答过程中发挥作用，尤其是当Claude需要处理来自其他工具的新信息时。

关键不仅在于“刮板”本身，更在于教会Claude如何高效运用它。Anthropic提供了丰富的示例提示，展示如何列出规则、核对事实以及规划后续步骤。比如，当用户想要取消航班ABC123时，Claude可借助“思考工具”列出需核实的信息，如用户ID、预订ID、取消原因，同时检查取消规则，包括是否在预订后24小时内，若非如此，还要查看机票类别和保险情况，确认无已飞行或已过期航段，进而规划收集缺失信息、核实规则、获取确认等步骤。又比如，当用户希望预订3张前往纽约且每张票有2件托运行李的机票时，Claude能通过“思考工具”明确需用户ID来核查会员等级以确定行李额度、存在哪些支付方式，进行行李费用计算，核实支付规则，最终规划出获取用户ID、核实会员等级确定行李费用、检查支付方式及组合是否允许、计算总价、获取预订确认等一系列操作。

根据Anthropic的研究，“思考”命令在分析工具输出、遵循复杂规则以及在错误代价高昂的情况下进行逐步决策时最为实用。特定领域的示例能助力Claude取得最佳效果。不过，“思考工具”并非万能，仅在简单任务（如单个工具调用或少量约束提示）无法保证可靠性时添加。

该工具能轻松与现有的Claude系统集成，且仅在实际使用时才会对性能产生影响。而且，大部分测试虽基于Claude 3.7 Sonnet进行，但Anthropic称Claude 3.5 Sonnet（新）同样能通过这一方法实现良好的改进效果。这一创新之举，无疑为人工智能在复杂任务处理上开辟了新路径，让我们对Claude未来的表现充满期待，也为整个AI领域的发展注入了新的活力。

viva la vida

Saturday, March 22, 2025

No comments:

Post a Comment