20天狂宴Pytorch-Day6
自动微分机制.
神经网络通常依赖反向传播求梯度来更新网络参数, 求梯度过程通常复杂且易出错, 而深度学习框架可以帮我们自动求梯度.
Pytorch 一般通过反向传播方法求梯度, 该方法求得的梯度存在对应自变量张量的 grad 属性下, 也可以调用torch.autograd.grad函数求梯度.
终于拿到了心心念念的 Switch2, 也玩上了心心念念的动森.
下一步准备蹲个便宜点的旷野之息卡带, 主机游戏是真的贵啊. 动森想去别人的岛都得开个 VIP, 唉日本人也太坏了.
其实我有点想在这写点类似开荒日志之类的东西, 想想还是算了, 太蠢了.
LLM 在语言理解和决策任务中表现出色, 但在推理和行动方面的能力很少被联系起来研究. 本文探讨了如何让 LLM 交错生成推理轨迹和针对任务的特定行动, 从而增强两者之间的协同作用: 推理轨迹帮助模型生成, 追踪并更新行动计划, 处理异常情况, 而特定行动允许模型与外部来源 (知识库或环境) 进行接口交互并获取额外信息. 作者将该方法命名为 ReAct (Reason+Act), 并将其应用于多种语言和决策任务, 展示了它在先进的基准上的有效性和更高的人类可读性与可靠性. ReAct 在问答和事实验证中, 通过和简单的维基百科 API 交互, 在思维链 (CoT) 中克服了普遍存在的幻觉和错误传播问题, 生成了类似人类的解决任务轨迹, 比基准更具可解释性, 不带推理痕迹. 此外, 在两个交互式决策基准测试中, ReAct 的成功率显著超过了模仿和强化学习方法, 只需在 prompt 中给出一两个上下文的例子.
丝之歌终于要出了, 我已经记不清我等了几年了. 我是高一玩的空洞, 所以应该是五年左右.
究竟是怎样的结局, 才配得上这一路的颠沛流离😭😭😭
大语言模型 (LLM) 在广泛的领域中取得了显著的成功, 展现出出色的规划和推理能力, 已经被用作自动执行许多任务的自主智能体. 近来, 基于使用一个 LLM 作为单一规划或决策智能体的发展, 基于 LLM 的多智能体系统在解决复杂问题和世界模拟方面取得了可观的进展. 为了给社区提供一个这个动态领域的概述, 本文深入讨论了基于 LLM 的多智能体系统的基本点和挑战. 本文主要聚焦于如下问题: 基于 LLM 的多智能体可以模拟哪些领域和环境? 这些智能体如何成形, 如何沟通? 智能体能力的提升用到了哪些机制?