产品列表

联系我们

地址：伟德手机网页版app下载最新官网
电话：0510-88265582 88265580
传真：0510-88265582 88265580
邮编：214101
网址：www.chianshen.com
E-mail：sales@chianshen.com

您的位置：首页 > 伟德手机网页版

Harrison Chase：独创AI智能体「认知架构」定制+极简加减法双驱动

发布时间: 2024-12-23 12:44:36

作者: 伟德app下载官网

Sonya Huang：智能体（Agent）是当前大家都很关注的话题。自从 LLM（大语言模型）兴起以来，你一直在智能体构建的前沿。能给我们介绍一下智能体的定义吗？

Harrison Chase：要定义智能体其实有些棘手。人们可能对它有不同的理解，这很正常，因为我们还处在 LLM 和智能体相关发展的早期阶段。

举个例子，在传统的 RAG（检索增强生成）链中，流程是预设的：生成搜索查询、检索文档、生成答案，最后反馈给用户。

而智能体则将 LLM 放在中心，让它自主决定下一步的行动。有时它会发起搜索，有时直接回复用户，甚至有可能多次查询，直到得出答案。LLM 能动态决定整个流程。

工具的使用也是智能体的重要特征。当 LLM 决定行动时，它通常会调用不同的工具来实现。此外，记忆也是关键，当 LLM 确定下一步时，它需要记住之前的操作。

Pat Grady：你提到的很多都和决策有关，我想知道智能体是否就是一种行动方式？这两者是否相辅相成？智能体的行为是否更偏向某一方面？

Harrison Chase：我认为它们确实是相辅相成的。智能体的很多行为本质上是在决定如何采取行动，而这样的一个过程的难点在于找到正确的行动。因此，解决决策问题通常也能解决行动问题。一旦决策确定，LLM 系统就会执行相应的行动并反馈结果。

Sonya Huang：智能体与链的主要不同之处在于 LLM 自主决定下一步，而不是预先设定步骤。这种区分是否准确？

Harrison Chase：是的，这是一个很好的描述。不过，实际上有不同的层次。比如，简单的路由器可能做的是链中的路径选择，虽然 LLM 依然在决策，但这只是基础应用。而完全自主的智能体则是另一种极端。总的来看，确实存在一些细微的差别和灰色地带。

Sonya Huang：明白了，智能体的范围从部分控制到完全自主决策都有，这很有趣。你觉得 LangChain 在智能体生态系统中扮演了什么角色？

Harrison Chase：我们现在的重点是让人们更容易创建介于这两者之间的智能体。我们得知，最有效的智能体通常位于这个中间地带。尽管完全自主的智能体吸引人，且已有原型，但它们常常偏离预期。因此，我们的工作集中在编排层，以便构建灵活但仍有一定约束的智能体。如果你想进一步探索，我们大家可以再讨论。但总的来说，LangChain 的愿景是成为一个编排框架。

Sonya Huang：我记得在 2023 年 3 月左右，像 BabyAGI 和 AutoGPT 这样的自主智能体引起了很多关注，但它们的首批迭代似乎未达到人们的期望。你认为原因是什么？现在智能体的炒作周期处于什么阶段？

Harrison Chase：确实，AutoGPT 的出现开启了智能体的炒作周期，尤其是在 GitHub 上受欢迎。这个热潮从 2023 年春季持续到夏季，之后稍微降温。到了 2024 年，我们开始看到一些实用的应用，比如 LangChain 与 Elastic 的合作，推出了 Elastic Assistant 和 Elastic Agent 等生产级智能体。这些应用，如 Klarna 的客户支持机器人，引发了更多讨论。此外，Devon 和 Cira 等公司也在智能体领域进行尝试。

关于 AutoGPT 未能完全成功的原因，我认为主要是它们过于笼统，缺乏明确的任务和规则。企业希望智能体能完成更具体的工作，而不单单是模糊的自主智能体。因此，我们正真看到的智能体更多像是定制的认知架构，尽管灵活，但需要更加多的工程投入和开发时间，这也是这些系统一年前还未出现的原因。

Sonya Huang：你前面提到了认知架构，我很喜欢你对它的思考方式。能否解释一下，什么是认知架构？我们该如何理解它？有没有一个合适的思维框架？

Harrison Chase：是的，我理解的认知架构，绝大多数都是指在使用大语言模型（LLM）时，你的系统架构是怎样的。

如果你正在构建一个应用，其中涉及多个算法步骤，你是如何利用这些算法的？你是否用它们生成最终答案？还是用它们在不同任务间做出合理的选择？是否有很复杂的分支，甚至包含多个循环？

这些都是认知架构的不同表现形式。认知架构实际上的意思就是指，从用户输入到输出，LLM 在调用过程中怎么样处理和流转信息。

尤其是在把智能体投入生产时，我们得知流程通常是根据具体应用需求而定制的。

例如，某个应用可能需要先进行一些特定的检查，再执行几个步骤，每个步骤又可能包含循环或分支。这就像是你在画一张流程图，而这种定制化的流程越来越普遍，因为人们希望智能体在应用中更可控。

我之所以称它为认知架构，是因为 LLM 的核心优点是它的推理能力，你能够最终靠编码这种认知心理模型，将其变成软件系统中的某种架构。

Pat Grady：你觉得这是未来的发展趋势吗？我听到了两点，一是非常定制化，二是它听起来更像是硬编码的。你认为这是我们当前的方向，还是暂时的解决方案？未来会出现更优雅的架构，或者一系列标准化的参考架构吗？

Harrison Chase：这是个很好的问题，我花了很多时间在思考这个。我认为，在极端情况下，如果模型在规划上很强大且可靠，你可能只需要一个简单的 for 循环，反复调用 LLM 来决定下一步该做什么，然后执行操作并再次循环。

所有你希望模型遵循的约束都能够最终靠提示传达，而模型也会按你预期的方式执行。尽管我相信模型在推理和规划方面会慢慢的好，但我不认为它们会完全取代手动构建的架构。

首先是效率问题。如果你知道某个步骤总是需要在另一步骤之后执行，那么你可以直接把它们按顺序安排好。

其次是可靠性，尤其是在企业环境中，人们需要一定的保障，确保关键步骤按预期执行。

因此，我认为虽然构建这些架构可能会变得更容易，但它们仍然会有一定复杂性。

从架构的角度看，你可以认为在循环中运行 LLM 是一种格外的简单但通用的认知架构。而我们在实际生产中看到的更多是定制化、复杂的架构。

我觉得跟着时间推移，通用规划和反思功能会被直接训练到模型中，但那些需要高度定制的规划、反思和控制功能依然不会被取代。

Sonya Huang：能这样理解：LLM 能够实现通用的智能体推理，但在具体领域中，你还需要定制化的推理能力。这些是无法完全内置到通用模型中的。

Harrison Chase：完全正确。自定义认知架构的核心思想在于，你让人类来承担规划责任，而不是完全依赖 LLM。

尽管某些规划功能可能会慢慢的接近模型和提示，但很多任务的规划过程依然复杂，无法完全自动化。我们还需要一些时间，才能发展出高度可靠、即插即用的解决方案。

Sonya Huang：我相信智能体将成为AI的新潮流，我们正从 AI 助手转向 AI 智能体。你同意吗？为什么？

Harrison Chase：我基本同意。智能体的潜力在于，传统的 AI 助手依赖人类输入，任务能力有限。而智能体能更独立地行动，偶尔与用户互动，这使它们能自主处理更多任务。

但赋予它们更多自主性也带来了风险，例如也许会出现偏差或错误。因此，找到自主性与可靠性之间的平衡将是一个重要的挑战。

Pat Grady：你在 AI Ascent 上提到了使用者真实的体验。通常，我们大家都认为它与架构位于光谱的两端——架构是幕后工作，而使用者真实的体验是前端展示。

但现在似乎情况不一样，使用者真实的体验实际上可以影响架构的有效性。比如，当出现一些明显的异常问题时，你可以像 Devin 一样，回溯到规划过程中出错的地方。

你能谈谈使用者真实的体验在智能体或 LLM 中的重要性吗？另外，你觉得有哪些有趣的发展？

Harrison Chase：使用者真实的体验在当前很重要，因为 LLM 并不完美，时常出错。聊天模式特别有效，它允许用户实时查看模型的反应，并及时纠正错误或追问细节。虽然这种模式已成为主流，但它的局限在于依然需要用户的持续反馈，更多是一种助手的体验。

不过，如何在自动化和用户参与之间找到平衡是个难题。一些有趣的想法正在尝试解决这一个问题。例如，创建一个智能体透明度列表，让用户清晰了解 AI 执行的每一步。如果某个步骤出错，用户都能够直接回溯并调整指令。

另一个创新的想法是引入收件箱体验，让智能体在后台并行运行，当需要人类帮助时，它可以像发邮件一样提醒用户，这样用户就可以在合适的时机介入，而不必全程监控。

在协作方面，智能体可以先起草文档，用户作为审阅者提供反馈。实时互动的体验也很吸引人。

例如，用户在评论时，智能体能够立即修复问题，就像在 Google Docs 中一样。这种互动方式能够增强使用者真实的体验，使 AI 真正成为高效的工作伙伴。

Pat Grady：你提到的关于智能体如何从交互中学习，真的很有意思。如果我每次都要重复给同一个反馈，那体验就会变得很糟糕，对吧？系统该如何提升这种反馈机制？

Harrison Chase：确实！如果我们不断给智能体相同的反馈，而它却不改进，那无疑会让人沮丧。因此，系统的架构需要能够从这些反馈中学习，不单单是修复当前的问题，还能积累经验，避免将来再犯。

这方面的进展虽然还处于早期阶段，但我们已花了很多时间在思考这样一些问题上，并相信随技术的进步，智能体会慢慢的变聪明，从而带来更流畅的用户体验。

Sonya Huang：在过去六个月，智能体领域取得了显著进展。普林斯顿的研究表明，他们的智能体能解决 12.5% 的 GitHub 问题，而依赖检索增强生成（RAG）时只有 3.8%。

尽管有所进步，但 12.5% 仍不足以取代实习生。你认为智能体的发展到了哪个阶段？它们能否在面向客户的环境中可靠部署？

Harrison Chase：是的，SWE 智能体相对通用，能处理多种 GitHub 问题。定制智能体的可靠性虽然未达到 99.999%，但已经足够在生产环境中使用。例如，Elastic 的智能体已在多个项目中应用。虽然我没有具体的可靠性数据，但它们足够可靠，可以上线。通用智能体面临更大挑战，需要更长的上下文窗口和更好的推理能力才能广泛应用。

Sonya Huang：你提到过思路链（Chain of Thought）等技术，能分享认知架构对智能体性能的影响吗？你认为最有前途的认知架构是什么？

Harrison Chase：AutoGPT 等项目没有成功的一个原因是早期 LLM 无法明确推理第一步该做什么。思路链等技术为模型提供了更好的推理空间。

姚舜宇的 ReAct 论文是第一个专门用于智能体的认知架构之一。ReAct 结合了推理和行动，让模型不仅执行动作，还能进行推理，来提升其能力。现在，随着模型训练的深入，显式推理步骤变得不再那么必要。

当前主要挑战在于长期规划和执行，模型在这方面表现不佳，需要认知架构帮助生成计划并逐步执行。反思则帮助判断任务是否完成。

总的来说，规划和推理是目前最重要的通用认知架构，未来随着训练改进，这样一些问题将得到更优秀的解决。

Sonya Huang：你提到杰夫 · 贝索斯说过专注于让你的啤酒更好。这让我想到早期许多啤酒厂选择自身发电。今天很多公司面临类似问题：要不要控制认知架构来提升业务？构建和优化这些架构真的能让你的啤酒更好，还是该放弃控制，专注于用户界面和产品开发？

Harrison Chase：这取决于你构建的认知架构类型。如果是通用架构，可能不会直接提升业务。未来，模型提供商会专注于通用的规划和认知架构，公司能够直接用这些来解决问题。但如果是高度定制的架构，反映了特定的业务流程或最佳实践，那它确实能提升业务，尤其在依赖这些应用的领域。

定制的业务逻辑和认知模型可以显著提高系统表现，个性化后更加精确和高效。尽管使用者真实的体验和界面设计依然重要，但定制化智能体显然是企业的一个重要优势。我认为通用和定制之间有很大的区别。

Sonya Huang：我们能聊聊 LangSmith 和 LangGraph 吗？你们解决了哪一些问题？特别是在智能体管理方面，你们的产品如何帮助人们更好地管理状态和提高智能体的可控性？

Harrison Chase：当然可以。LangChain 的推出解决了核心问题，尤其是标准化各个组件的接口。这让我们也可以与多种模型、向量存储、工具和数据库进行广泛集成，这也是 LangChain 受欢迎的重要原因。

LangChain 还提供了一系列高级接口，使用户都能够轻松使用功能，如 RAG（检索增强生成）和 SQL 问答，同时动态构建链的运行时间也较短。我们把这些链视为有向无环图（DAG），这一点很重要。

LangGraph 解决了与可定制和可控的循环元素相关的问题。循环引入了新挑战，比如设计持久化层，以便恢复状态并让循环在后台异步运行。因此，我们关注如何有效部署长期、循环和人机交互的应用程序。

关于 LangSmith，自企业成立以来我们就一直在研究它，专注于 LLM 应用的可观察性和测试。

我们发现，LLM 作为核心时，其固有的不确定性使得可观察性和测试特别的重要，以确保能自信地投入生产。LangSmith 的设计使其能够与 LangChain 无缝配合。

此外，LangSmith 还提供了提示中心，帮助用户管理和手动审查提示。这在整一个完整的过程中显得尤其重要，因为我们应该明确 LLM 输出的新内容。

可观察性是 LLM 的显著特征，而测试的复杂性也在增加。因此，我们大家都希望人们能更频繁地审查内容，而不仅仅局限于传统的软件测试。LangSmith 提供的工具和路由正是未解决这些挑战。

Pat Grady：你是否有一种启发式的方法来评估现有的可观察性、测试和填空，看看它们在多大程度上适用于 LLM？哪些特征使得现有 LLM 与之前的模型有显著不同，以至于你们需要开发新产品、新架构或新方法？

Harrison Chase：是的，这确实是一个值得深入思考的问题。尤其是在可观察性和测试方面，LLM 的复杂性让我们一定要创新。虽然像 Datadog 这样的工具可以很好地监控，但要深入分析多步骤的应用程序，LangSmith 能提供更精细的痕迹分析，帮助更好地调试和应对 LLM 的不确定性。

测试方面也很有趣。在传统软件测试中，通常只关注结果是否通过，而不进行成对比较。然而，LLM 评估中，像 LLMSYS 这种工具允许并排比较两个模型，这样的形式在 LLM 测试中尤为关键。

另一个挑战是，LLM 测试中你不会总是有 100% 的通过率，因此跟踪进展很重要，确保你在慢慢的提升，而不是退步。相比传统测试的通过 / 失败判断，LLM 的测试需要更细致的跟踪和分析。

最后，人类的参与至关重要。尽管我们大家都希望系统自动化运行，但人工干预往往更可靠。这和软件测试中简单的等式验证非常不同，我们应该引入人类判断，使测试更加精确且灵活。

Pat Grady：在深入讨论智能体构建细节前，我想问一个问题。我们的创始人唐 · 瓦伦丁有一个著名的提问那又怎样？如果自主智能体完美运作，那又怎样？这对世界有什么影响？我们的生活将如何不同？

Harrison Chase：从更高层面来看，这在某种程度上预示着我们人类将能关注不同的事情。

现阶段，很多行业都依赖重复性、机械性的工作，而智能体的想法是自动化其中的大部分，从而让我们也可以专注于更高层次的问题。我们大家可以利用智能体的输出进行更多创造性和高杠杆的工作，像公司运营中的许多职能可以外包给智能体。

你可以想象自己扮演首席执行官的角色，而智能体负责营销、销售等其他职能，自动化大量重复性工作，让你有更多时间进行战略思考或产品研究开发。这将使我们自由地做我们擅长的、有兴趣的事情，摆脱那些不太愿意做的机械工作。

Pat Grady：你有没看到任何现实中的例子，或者有什么正在开发中的有趣项目？

Harrison Chase：目前两个最受关注的智能体领域是客户支持和编码。

客户支持是一个很好的例子，很多公司都需要外包这类服务，而智能体可以高效地替代这部分工作，这会非常有力。

至于编码，它更复杂，涉及许多创造性和产品定位的思考。虽然某些编码任务确实限制了人的创造力，但如果有智能体可以自动完成这些编码任务，像我妈妈有一个网站的想法但不会编程，这样的智能体就能让她把更多精力放在网站的想法和范围上，而代码部分可以自动生成。

客户支持智能体慢慢的开始发挥作用，而在编码领域，也有许多新进展，尽管它还未完全成熟，但许多人正开展有趣的项目。

Pat Grady：你提到的编码问题很有趣，因为这是我们对AI抱有乐观态度的原因之一。AI 有可能缩短从想法到执行的距离，让创造性的想法更容易变成现实。像 Figma 的 Dylan 经常谈论这一点。

Harrison Chase：是的，自动化可以消除那些阻碍创作的东西，这种从想法到现实的转换非常吸引人。在生成式 AI 时代和智能体时代，构建者的定义将发生变化。

今天的软件构建者大多是工程师，或者需要雇佣工程师。而未来，借助智能体和生成式 AI，构建者可以构建更多的东西，因为他们能够低成本地利用智能体，获得所需的知识和能力。这相当于让智能体商品化了情报，意味着更多人能成为构建者。

Pat Grady：我很好奇，对那些试图使用 LLMs 构建产品或 AI 的研发人员来说，有哪一些问题是你们目前没有直接解决，但未来可能会考虑的？

Harrison Chase：是的，确实有两个主要领域。一个是模型层，另一个是数据库层。

比如，我们并不打算构建矢量数据库，但关于如何存储数据，这是个很有趣的问题。不过，这并不是我们现在的重点。我们也不构建基础模型，也不专注于微调。

我们更多是想帮助开发者在数据管理上简化工作流程，但并不打算为了微调去搭建基础设施。

有很多公司，比如 Fireworks，正在专门做这些事，这真的很有趣。对于开发者来说，这样一些问题处于技术堆栈的底层。

同时，另一个值得思考的问题是，如果智能体真的像我们设想的那样变得更普遍，将会出现哪些新的基础性问题？所以说实话，现在就说我们未来会做什么或者不会做什么还为时尚早。因我们现在离一个完全可靠的智能体经济系统还有一段距离。

不过，有些概念已经很吸引人了，比如智能体的身份验证、授权、支付等基础设施。

想象一下，未来的某天，智能体给人类支付服务费用，而不是相反！这种场景真的让人兴奋。如果智能体真的像我们想象的那样流行起来，我们应该什么样的工具和基础设施来支持这一切？

这些问题和开发者社区中构建 LLM 应用程序的需求有些不同。LLM 应用已经在这里了，智能体正在慢慢地成熟，但整个智能体ECO还没有完全成型。这会是一个很有趣的发展方向。

Sonya Huang：你刚才提到微调，说你们目前不打算深入这样的领域。看起来提示工程和微调常常被认为是互相替代的工具。你怎么看现在提示与微调的使用方式？你觉得未来的走向会怎样？

Harrison Chase：其实，我并不认为微调和认知架构是互相替代的。相反，我觉得它们在很多方面是互补的。

当你有更定制化的认知架构时，智能体每个部分或节点的职责变得更具体明确。而在这种情况下，微调就显得格外有用。因为当你明确了每个模块的工作范围时，微调就能更加进一步优化这些模块的表现。

上一篇:三菱plc远程维护平台有什么功能下一篇:工业信息安全事件频发风险加剧业内人士：工控新蓝海蓄势待发