Sonya Huang:智能体(Agent)是当前大家都很关注的话题。自从 LLM(大语言模型)兴起以来,你一直在智能体构建的前沿。能给我们介绍一下智能体的定义吗?
Harrison Chase:要定义智能体其实有些棘手。人们可能对它有不同的理解,这很正常,因为我们还处在 LLM 和智能体相关发展的早期阶段。
举个例子,在传统的 RAG(检索增强生成)链中,流程是预设的:生成搜索查询、检索文档、生成答案,最后反馈给用户。
而智能体则将 LLM 放在中心,让它自主决定下一步的行动。有时它会发起搜索,有时直接回复用户,甚至有可能多次查询,直到得出答案。LLM 能动态决定整个流程。
工具的使用也是智能体的重要特征。当 LLM 决定行动时,它通常会调用不同的工具来实现。此外,记忆也是关键,当 LLM 确定下一步时,它需要记住之前的操作。
Pat Grady:你提到的很多都和 决策 有关,我想知道智能体是否就是一种行动方式?这两者是否相辅相成?智能体的行为是否更偏向某一方面?
Harrison Chase:我认为它们确实是相辅相成的。智能体的很多行为本质上是在决定如何采取行动,而这样的一个过程的难点在于找到正确的行动。因此,解决 决策 问题通常也能解决 行动 问题。一旦决策确定,LLM 系统就会执行相应的行动并反馈结果。
Sonya Huang:智能体与链的主要不同之处在于 LLM 自主决定下一步,而不是预先设定步骤。这种区分是否准确?
Harrison Chase:是的,这是一个很好的描述。不过,实际上有不同的层次。比如,简单的路由器可能做的是链中的路径选择,虽然 LLM 依然在决策,但这只是基础应用。而完全自主的智能体则是另一种极端。总的来看,确实存在一些细微的差别和灰色地带。
Sonya Huang:明白了,智能体的范围从部分控制到完全自主决策都有,这很有趣。你觉得 LangChain 在智能体生态系统中扮演了什么角色?
Harrison Chase:我们现在的重点是让人们更容易创建介于这两者之间的智能体。我们得知,最有效的智能体通常位于这个中间地带。尽管完全自主的智能体吸引人,且已有原型,但它们常常偏离预期。因此,我们的工作集中在 编排层 ,以便构建灵活但仍有一定约束的智能体。如果你想进一步探索,我们大家可以再讨论。但总的来说,LangChain 的愿景是成为一个编排框架。
Sonya Huang:我记得在 2023 年 3 月左右,像 BabyAGI 和 AutoGPT 这样的自主智能体引起了很多关注,但它们的首批迭代似乎未达到人们的期望。你认为原因是什么?现在智能体的炒作周期处于什么阶段?
Harrison Chase:确实,AutoGPT 的出现开启了智能体的炒作周期,尤其是在 GitHub 上受欢迎。这个热潮从 2023 年春季持续到夏季,之后稍微降温。到了 2024 年,我们开始看到一些实用的应用,比如 LangChain 与 Elastic 的合作,推出了 Elastic Assistant 和 Elastic Agent 等生产级智能体。这些应用,如 Klarna 的客户支持机器人,引发了更多讨论。此外,Devon 和 Cira 等公司也在智能体领域进行尝试。
关于 AutoGPT 未能完全成功的原因,我认为主要是它们过于笼统,缺乏明确的任务和规则。企业希望智能体能完成更具体的工作,而不单单是模糊的自主智能体。因此,我们正真看到的智能体更多像是定制的认知架构,尽管灵活,但需要更加多的工程投入和开发时间,这也是这些系统一年前还未出现的原因。
Sonya Huang:你前面提到了 认知架构 ,我很喜欢你对它的思考方式。能否解释一下,什么是认知架构?我们该如何理解它?有没有一个合适的思维框架?
Harrison Chase:是的,我理解的认知架构,绝大多数都是指在使用大语言模型(LLM)时,你的系统架构是怎样的。
如果你正在构建一个应用,其中涉及多个算法步骤,你是如何利用这些算法的?你是否用它们生成最终答案?还是用它们在不同任务间做出合理的选择?是否有很复杂的分支,甚至包含多个循环?
这些都是认知架构的不同表现形式。认知架构实际上的意思就是指,从用户输入到输出,LLM 在调用过程中怎么样处理和流转信息。
尤其是在把智能体投入生产时,我们得知流程通常是根据具体应用需求而定制的。
例如,某个应用可能需要先进行一些特定的检查,再执行几个步骤,每个步骤又可能包含循环或分支。这就像是你在画一张流程图,而这种定制化的流程越来越普遍,因为人们希望智能体在应用中更可控。
我之所以称它为 认知架构 ,是因为 LLM 的核心优点是它的推理能力,你能够最终靠编码这种认知心理模型,将其变成软件系统中的某种架构。
Pat Grady:你觉得这是未来的发展趋势吗?我听到了两点,一是非常定制化,二是它听起来更像是硬编码的。你认为这是我们当前的方向,还是暂时的解决方案?未来会出现更优雅的架构,或者一系列标准化的参考架构吗?
Harrison Chase:这是个很好的问题,我花了很多时间在思考这个。我认为,在极端情况下,如果模型在规划上很强大且可靠,你可能只需要一个简单的 for 循环,反复调用 LLM 来决定下一步该做什么,然后执行操作并再次循环。
所有你希望模型遵循的约束都能够最终靠提示传达,而模型也会按你预期的方式执行。尽管我相信模型在推理和规划方面会慢慢的好,但我不认为它们会完全取代手动构建的架构。
首先是效率问题。如果你知道某个步骤总是需要在另一步骤之后执行,那么你可以直接把它们按顺序安排好。
其次是可靠性,尤其是在企业环境中,人们需要一定的保障,确保关键步骤按预期执行。
因此,我认为虽然构建这些架构可能会变得更容易,但它们仍然会有一定复杂性。
从架构的角度看,你可以认为 在循环中运行 LLM 是一种格外的简单但通用的认知架构。而我们在实际生产中看到的更多是定制化、复杂的架构。
我觉得跟着时间推移,通用规划和反思功能会被直接训练到模型中,但那些需要高度定制的规划、反思和控制功能依然不会被取代。
Sonya Huang:能这样理解:LLM 能够实现通用的智能体推理,但在具体领域中,你还需要定制化的推理能力。这些是无法完全内置到通用模型中的。
Harrison Chase:完全正确。自定义认知架构的核心思想在于,你让人类来承担规划责任,而不是完全依赖 LLM。
尽管某些规划功能可能会慢慢的接近模型和提示,但很多任务的规划过程依然复杂,无法完全自动化。我们还需要一些时间,才能发展出高度可靠、即插即用的解决方案。
Sonya Huang:我相信智能体将成为AI的新潮流,我们正从 AI 助手转向 AI 智能体。你同意吗?为什么?
Harrison Chase:我基本同意。智能体的潜力在于,传统的 AI 助手依赖人类输入,任务能力有限。而智能体能更独立地行动,偶尔与用户互动,这使它们能自主处理更多任务。
但赋予它们更多自主性也带来了风险,例如也许会出现偏差或错误。因此,找到自主性与可靠性之间的平衡将是一个重要的挑战。
Pat Grady:你在 AI Ascent 上提到了使用者真实的体验。通常,我们大家都认为它与架构位于光谱的两端——架构是幕后工作,而使用者真实的体验是前端展示。
但现在似乎情况不一样,使用者真实的体验实际上可以影响架构的有效性。比如,当出现一些明显的异常问题时,你可以像 Devin 一样,回溯到规划过程中出错的地方。
你能谈谈使用者真实的体验在智能体或 LLM 中的重要性吗?另外,你觉得有哪些有趣的发展?
Harrison Chase:使用者真实的体验在当前很重要,因为 LLM 并不完美,时常出错。聊天模式特别有效,它允许用户实时查看模型的反应,并及时纠正错误或追问细节。虽然这种模式已成为主流,但它的局限在于依然需要用户的持续反馈,更多是一种 助手 的体验。
不过,如何在自动化和用户参与之间找到平衡是个难题。一些有趣的想法正在尝试解决这一个问题。例如,创建一个智能体透明度列表,让用户清晰了解 AI 执行的每一步。如果某个步骤出错,用户都能够直接回溯并调整指令。
另一个创新的想法是引入 收件箱 体验,让智能体在后台并行运行,当需要人类帮助时,它可以像发邮件一样提醒用户,这样用户就可以在合适的时机介入,而不必全程监控。
在协作方面,智能体可以先起草文档,用户作为审阅者提供反馈。实时互动的体验也很吸引人。
例如,用户在评论时,智能体能够立即修复问题,就像在 Google Docs 中一样。这种互动方式能够增强使用者真实的体验,使 AI 真正成为高效的工作伙伴。
Pat Grady:你提到的关于智能体如何从交互中学习,真的很有意思。如果我每次都要重复给同一个反馈,那体验就会变得很糟糕,对吧?系统该如何提升这种反馈机制?
Harrison Chase:确实!如果我们不断给智能体相同的反馈,而它却不改进,那无疑会让人沮丧。因此,系统的架构需要能够从这些反馈中学习,不单单是修复当前的问题,还能积累经验,避免将来再犯。
这方面的进展虽然还处于早期阶段,但我们已花了很多时间在思考这样一些问题上,并相信随技术的进步,智能体会慢慢的变 聪明 ,从而带来更流畅的用户体验。
Sonya Huang:在过去六个月,智能体领域取得了显著进展。普林斯顿的研究表明,他们的智能体能解决 12.5% 的 GitHub 问题,而依赖检索增强生成(RAG)时只有 3.8%。
尽管有所进步,但 12.5% 仍不足以取代实习生。你认为智能体的发展到了哪个阶段?它们能否在面向客户的环境中可靠部署?
Harrison Chase:是的,SWE 智能体相对通用,能处理多种 GitHub 问题。定制智能体的可靠性虽然未达到 99.999%,但已经足够在生产环境中使用。例如,Elastic 的智能体已在多个项目中应用。虽然我没有具体的可靠性数据,但它们足够可靠,可以上线。通用智能体面临更大挑战,需要更长的上下文窗口和更好的推理能力才能广泛应用。
Sonya Huang:你提到过思路链(Chain of Thought)等技术,能分享认知架构对智能体性能的影响吗?你认为最有前途的认知架构是什么?
Harrison Chase:AutoGPT 等项目没有成功的一个原因是早期 LLM 无法明确推理第一步该做什么。思路链等技术为模型提供了更好的推理空间。
姚舜宇的 ReAct 论文是第一个专门用于智能体的认知架构之一。ReAct 结合了推理和行动,让模型不仅执行动作,还能进行推理,来提升其能力。现在,随着模型训练的深入,显式推理步骤变得不再那么必要。
当前主要挑战在于长期规划和执行,模型在这方面表现不佳,需要认知架构帮助生成计划并逐步执行。反思则帮助判断任务是否完成。
总的来说,规划和推理是目前最重要的通用认知架构,未来随着训练改进,这样一些问题将得到更优秀的解决。
Sonya Huang:你提到杰夫 · 贝索斯说过 专注于让你的啤酒更好 。这让我想到早期许多啤酒厂选择自身发电。今天很多公司面临类似问题:要不要控制认知架构来提升业务?构建和优化这些架构真的能 让你的啤酒更好 ,还是该放弃控制,专注于用户界面和产品开发?
Harrison Chase:这取决于你构建的认知架构类型。如果是通用架构,可能不会直接提升业务。未来,模型提供商会专注于通用的规划和认知架构,公司能够直接用这些来解决问题。但如果是高度定制的架构,反映了特定的业务流程或最佳实践,那它确实能提升业务,尤其在依赖这些应用的领域。
定制的业务逻辑和认知模型可以显著提高系统表现,个性化后更加精确和高效。尽管使用者真实的体验和界面设计依然重要,但定制化智能体显然是企业的一个重要优势。我认为通用和定制之间有很大的区别。
Sonya Huang:我们能聊聊 LangSmith 和 LangGraph 吗?你们解决了哪一些问题?特别是在智能体管理方面,你们的产品如何帮助人们更好地管理状态和提高智能体的可控性?
Harrison Chase:当然可以。LangChain 的推出解决了核心问题,尤其是标准化各个组件的接口。这让我们也可以与多种模型、向量存储、工具和数据库进行广泛集成,这也是 LangChain 受欢迎的重要原因。
LangChain 还提供了一系列高级接口,使用户都能够轻松使用功能,如 RAG(检索增强生成)和 SQL 问答,同时动态构建链的运行时间也较短。我们把这些 链 视为有向无环图(DAG),这一点很重要。
LangGraph 解决了与可定制和可控的循环元素相关的问题。循环引入了新挑战,比如设计持久化层,以便恢复状态并让循环在后台异步运行。因此,我们关注如何有效部署长期、循环和人机交互的应用程序。
关于 LangSmith,自企业成立以来我们就一直在研究它,专注于 LLM 应用的可观察性和测试。
我们发现,LLM 作为核心时,其固有的不确定性使得可观察性和测试特别的重要,以确保能自信地投入生产。LangSmith 的设计使其能够与 LangChain 无缝配合。
此外,LangSmith 还提供了提示中心,帮助用户管理和手动审查提示。这在整一个完整的过程中显得尤其重要,因为我们应该明确 LLM 输出的新内容。
可观察性是 LLM 的显著特征,而测试的复杂性也在增加。因此,我们大家都希望人们能更频繁地审查内容,而不仅仅局限于传统的软件测试。LangSmith 提供的工具和路由正是未解决这些挑战。
Pat Grady:你是否有一种启发式的方法来评估现有的可观察性、测试和填空,看看它们在多大程度上适用于 LLM?哪些特征使得现有 LLM 与之前的模型有显著不同,以至于你们需要开发新产品、新架构或新方法?
Harrison Chase:是的,这确实是一个值得深入思考的问题。尤其是在可观察性和测试方面,LLM 的复杂性让我们一定要创新。虽然像 Datadog 这样的工具可以很好地监控,但要深入分析多步骤的应用程序,LangSmith 能提供更精细的痕迹分析,帮助更好地调试和应对 LLM 的不确定性。
测试方面也很有趣。在传统软件测试中,通常只关注结果是否通过,而不进行成对比较。然而,LLM 评估中,像 LLMSYS 这种工具允许并排比较两个模型,这样的形式在 LLM 测试中尤为关键。
另一个挑战是,LLM 测试中你不会总是有 100% 的通过率,因此跟踪进展很重要,确保你在慢慢的提升,而不是退步。相比传统测试的通过 / 失败判断,LLM 的测试需要更细致的跟踪和分析。
最后,人类的参与至关重要。尽管我们大家都希望系统自动化运行,但人工干预往往更可靠。这和软件测试中简单的等式验证非常不同,我们应该引入人类判断,使测试更加精确且灵活。
Pat Grady:在深入讨论智能体构建细节前,我想问一个问题。我们的创始人唐 · 瓦伦丁有一个著名的提问 那又怎样? 如果自主智能体完美运作,那又怎样?这对世界有什么影响?我们的生活将如何不同?
Harrison Chase:从更高层面来看,这在某种程度上预示着我们人类将能关注不同的事情。
现阶段,很多行业都依赖重复性、机械性的工作,而智能体的想法是自动化其中的大部分,从而让我们也可以专注于更高层次的问题。我们大家可以利用智能体的输出进行更多创造性和高杠杆的工作,像公司运营中的许多职能可以外包给智能体。
你可以想象自己扮演首席执行官的角色,而智能体负责营销、销售等其他职能,自动化大量重复性工作,让你有更多时间进行战略思考或产品研究开发。这将使我们自由地做我们擅长的、有兴趣的事情,摆脱那些不太愿意做的机械工作。
Pat Grady:你有没看到任何现实中的例子,或者有什么正在开发中的有趣项目?
Harrison Chase:目前两个最受关注的智能体领域是客户支持和编码。
客户支持是一个很好的例子,很多公司都需要外包这类服务,而智能体可以高效地替代这部分工作,这会非常有力。
至于编码,它更复杂,涉及许多创造性和产品定位的思考。虽然某些编码任务确实限制了人的创造力,但如果有智能体可以自动完成这些编码任务,像我妈妈有一个网站的想法但不会编程,这样的智能体就能让她把更多精力放在网站的想法和范围上,而代码部分可以自动生成。
客户支持智能体慢慢的开始发挥作用,而在编码领域,也有许多新进展,尽管它还未完全成熟,但许多人正开展有趣的项目。
Pat Grady:你提到的编码问题很有趣,因为这是我们对AI抱有乐观态度的原因之一。AI 有可能缩短从想法到执行的距离,让创造性的想法更容易变成现实。像 Figma 的 Dylan 经常谈论这一点。
Harrison Chase:是的,自动化可以消除那些阻碍创作的东西,这种 从想法到现实 的转换非常吸引人。在生成式 AI 时代和智能体时代, 构建者 的定义将发生变化。
今天的软件构建者大多是工程师,或者需要雇佣工程师。而未来,借助智能体和生成式 AI,构建者可以构建更多的东西,因为他们能够低成本地利用智能体,获得所需的知识和能力。这相当于让智能体商品化了情报,意味着更多人能成为构建者。
Pat Grady:我很好奇,对那些试图使用 LLMs 构建产品或 AI 的研发人员来说,有哪一些问题是你们目前没有直接解决,但未来可能会考虑的?
Harrison Chase:是的,确实有两个主要领域。一个是模型层,另一个是数据库层。
比如,我们并不打算构建矢量数据库,但关于如何存储数据,这是个很有趣的问题。不过,这并不是我们现在的重点。我们也不构建基础模型,也不专注于微调。
我们更多是想帮助开发者在数据管理上简化工作流程,但并不打算为了微调去搭建基础设施。
有很多公司,比如 Fireworks,正在专门做这些事,这真的很有趣。对于开发者来说,这样一些问题处于技术堆栈的底层。
同时,另一个值得思考的问题是,如果智能体真的像我们设想的那样变得更普遍,将会出现哪些新的基础性问题?所以说实话,现在就说我们未来会做什么或者不会做什么还为时尚早。因我们现在离一个完全可靠的智能体经济系统还有一段距离。
不过,有些概念已经很吸引人了,比如智能体的身份验证、授权、支付等基础设施。
想象一下,未来的某天,智能体给人类支付服务费用,而不是相反!这种场景真的让人兴奋。如果智能体真的像我们想象的那样流行起来,我们应该什么样的工具和基础设施来支持这一切?
这些问题和开发者社区中构建 LLM 应用程序的需求有些不同。LLM 应用已经在这里了,智能体正在慢慢地成熟,但整个智能体ECO还没有完全成型。这会是一个很有趣的发展方向。
Sonya Huang:你刚才提到微调,说你们目前不打算深入这样的领域。看起来提示工程和微调常常被认为是互相替代的工具。你怎么看现在提示与微调的使用方式?你觉得未来的走向会怎样?
Harrison Chase:其实,我并不认为微调和认知架构是互相替代的。相反,我觉得它们在很多方面是互补的。
当你有更定制化的认知架构时,智能体每个部分或节点的职责变得更具体明确。而在这种情况下,微调就显得格外有用。因为当你明确了每个模块的工作范围时,微调就能更加进一步优化这些模块的表现。
网站地图:伟德最新官网