东华大学官方服务平台:教务处在线服务专区 chanong 编辑说 火,Agent可太火了!关于Agent的进展俯拾皆是,根本看不过来……看过来——这篇综述可能能帮你厘清很多问题:来自华东师大和东华大学的研究团队发表了“ASur 大家好,今天来为大家分享东华大学官方服务平台:教务处在线服务专区的一些知识点,和的问题解析,大家要是都明白,那么可以忽略,如果不太清楚的话可以看看本篇文章,相信很大概率可以解决您的问题,接下来我们就一起来看看吧! 火,Agent可太火了!关于Agent的进展俯拾皆是,根本看不过来…… 看过来——这篇综述可能能帮你厘清很多问题: 来自华东师大和东华大学的研究团队发表了“A Survey on the Optimization of Large Language Model-based Agents(大模型智能体的优化方法综述)”,首次从系统化视角对LLM智能体优化策略进行了全面梳理与分析。 论文将将现有方法划分为两大类:参数驱动的优化与参数无关的优化。 前者包括基于监督微调、强化学习(如PPO、DPO)以及微调与RL结合的混合策略,重点讨论了轨迹数据构建、奖励函数设计、优化算法等关键模块。 后者则涉及通过Prompt工程、外部工具调用、知识检索等方式在不修改模型参数的前提下优化Agent行为。 除此之外,作者们还整理了主流的Agent微调与评估数据集,回顾了LLM Agent在医疗、科学、金融、编程等多个应用领域的代表性实践。 最后,研究团队总结了Agent当前面临的关键挑战与未来研究方向。 近年来,随着GPT-4、PaLM和DeepSeek等大型语言模型不仅在语言理解和生成上表现出色,更在推理、规划和复杂决策等方面展现出非凡的能力。 因此,越来越多的研究者开始尝试将LLM作为智能体来使用,探索其在自动决策和通用人工智能方向的潜力。 与传统的强化学习智能体不同,LLM智能体不依赖显式的奖励函数,而是通过自然语言指令、Prompt模板与上下文学习(ICL)完成复杂任务。 这种“文本驱动”的智能体范式展现出极高的灵活性与泛化能力,能够跨任务理解人类意图、执行多步骤操作,并在动态环境中做出决策。 当前,研究者已尝试通过任务分解、自我反思、记忆增强以及多智能体协作等方式提升其表现,应用场景涵盖软件开发、数学推理、具身智能、网页导航等多个领域。 值得注意的是,LLM本身的训练目标是预测下一个token,并非为长期规划和交互学习的Agent任务而生。 这也导致了LLM作为Agent的部分挑战: 长程规划与多步推理能力不足,容易在复杂任务中出现累积错误;缺乏持续性记忆机制,难以基于历史经验进行反思与优化;对新环境的适应能力有限,难以动态应对变化场景。尤其是开源LLM在agent任务中的表现普遍落后于GPT-4等闭源模型,而闭源模型的高成本与不透明性,也使得优化开源LLM以提升Agent能力成为当前研究的关键需求。 当前已有的综述要么聚焦于大模型优化本身,要么只讨论agent的局部能力(如规划、记忆或角色扮演),并未将“LLM智能体优化”作为一个独立且系统的研究方向进行深入探讨。 研究团队填补了这一空白,首次以“LLM-based Agent的优化技术”为核心议题展开系统综述,构建统一框架,归纳方法路径,并对比不同技术的优劣与适用情境。 在参数驱动的LLM优化中,作者将其分为3个方向。 第一个方向,基于常规微调的优化。 又分为2大步骤:构建Agent任务的高质量轨迹数据——用轨迹微调Agent。 首先是数据获取与生成。 高质量的轨迹数据构建开始于初始数据的获取和生成,这不仅需要一组多样化的轨迹,还需要与目标任务充分对齐,以确保有效的学习。 作者将主流方法归纳为以下四类: 专家标注数据:由人类专家手工设计,质量高、对齐强,是微调的黄金标准。但人力成本高、难以扩展,常作为优质补充数据使用。强LLM自动生成数据:利用GPT-4等大模型结合ReAct、CoT策略生成轨迹,效率高、适合大规模构建。但数据依赖大模型,存在成本高、偏差传播等问题。Agent自主探索数据:通过开源模型自主与环境交互生成轨迹,成本低、可摆脱闭源依赖。缺点是探索能力有限,需配合后续筛选机制去除低质数据。多智能体协作生成数据:通过多个Agent协同完成复杂任务流程,提升数据多样性与交互复杂度。但系统设计更复杂,稳定性和资源成本也是挑战。其次,数据的评估与过滤。 由于生成的轨迹数据质量参差不齐,对数据进行评估和筛选成为不可或缺的一步。 作者将主流方法归纳为三类: 基于环境的评估:这类方法依靠任务是否成功、环境奖励等外部反馈来判断轨迹质量,易于实现,自动化程度高。但缺点是反馈信号过于粗粒度,只关注最终结果,无法发现推理链条中的隐性错误。基于人工或规则的评估:通过预设规则(如任务完成度、答案一致性、多样性等)或专家人工审核,对数据进行更精细的质量控制。适配性强、准确性高,但也需要大量人工参与与复杂设计。基于模型的评估:借助强大的LLM(如GPT-4)对轨迹进行自动打分与分析,能从相关性、准确性、完整性等维度进行多层评估,构建自动化质量评估框架。缺点在于,评估本身依赖模型,可能引入新的偏差。接着是低质量样本的利用。 除了高质量的获取,对不合格的低质量轨迹也需要再次利用。 目前的主流策略包括: 对比式利用:通过对比正确与错误样本,让模型更清晰地识别哪些行为是有效的。错误修正型方法:识别并修正失败轨迹,将其转化为可学习的数据,提升训练质量。直接利用错误样本:不做修正,直接用失败案例训练模型,提升其面对错误情境时的容错性。完成高质量轨迹数据构建后,下一步就是关键的微调阶段。 通过微调,让开源大模型真正适应Agent任务,学会规划、推理与交互,是优化LLM智能体不可或缺的一步。 值得注意的是,仅用Agent任务轨迹微调可能会削弱LLM的通用能力。 因此,大多工作选择混合通用指令数据与Agent轨迹共同训练,以在保留语言基础能力的同时,提升Agent执行能力。 作者将现有的微调方法划分为三大类: 标准SFT:最常见的方法,通过高质量指令-输出对或轨迹数据,对模型进行全参数优化,最能对齐目标任务。此外,模仿学习中的行为克隆本质上也属于这一类,强调从专家轨迹中学习决策策略。参数高效微调(如LoRA/QLoRA):只更新少量参数,其余权重保持不动,显著降低显存与算力开销,在大模型Agent微调中尤为常见。相比全量微调,虽然训练开销更小,但性能往往可媲美甚至超过自定义微调策略:为特定任务设计的微调方法,例如将通用指令与轨迹数据混合训练,或引入额外约束项(如正则化)提升泛化与稳定性。这类方法更具灵活性,适合复杂或稀缺任务场景。相比于传统的微调方式,强化学习为Agent带来了更具主动性的学习路径。 它让模型不再只是“模仿”,而是能在环境中探索行为、接受奖励与惩罚,动态调整策略,真正实现从试错中成长。 作者将当前RL优化方式分为:基于奖励函数的优化和基于偏好对齐的优化。 先说基于奖励函数的优化。 在强化学习优化中,奖励函数就像智能体的指挥棒,引导模型不断改进策略。通过设定清晰的“做得好 vs 做错了”标准,Agent可以从交互中学习得更精细、更稳健。 作者将当前方法按照三类奖励来源划分3类: 基于环境的奖励:直接依据任务是否完成来打分,简单直观,自动化程度高。但往往只关注最终结果,忽略了中间步骤的质量。基于模型的奖励:由LLM或辅助模型对轨迹进行评估,适用于环境反馈稀疏的场景,能提供更细致的反馈。但效果取决于评估模型的质量。自定义奖励函数:研究者根据任务需求自设多维度奖励,不仅考核完成度,也关注策略稳定性、协作效率等。灵活强大,但设计成本高、难以泛化。再来看基于偏好对齐的优化。 相比传统RL基于奖励函数的训练方式,偏好对齐提供了更直接、更轻量的优化路径。 它不再依赖繁琐的奖励建模,而是让Agent学会“哪种行为更受人类欢迎”。 其代表方法是DPO,一种更简单的离线强化学习方式,直接通过人类或专家的偏好对样本进行“正负对比”训练。 根据主要偏好数据来源,作者将其这类优化方法分为两类: 专家/人工偏好数:基于专家示范或人类标注构造正负样本(优质 vs 错误轨迹),质量高但难以大规模扩展,覆盖面有限。任务或环境反馈:从任务表现(成功率、分数等)中自动构建偏好对,适用于动态任务场景,但依赖反馈机制合理的设计。综合来看,偏好对齐方法训练高效、部署简单,但强依赖偏好数据质量与覆盖范围,适合结构明确、反馈清晰的任务场景。 而奖励函数类方法更适配复杂多变的环境,但成本更高。 单一的优化方法各有短板——常规微调稳定高效但缺乏动态应变能力,RL灵活强大却计算开销巨大。 于是,越来越多研究开始探索混合微调策略,结合两者优点,构建更强大的LLM智能体。 这类工作主要为: 第一,顺序式两阶段训练。 这也是是当前的主流方法,采取“先SFT、后RL”的思路。 阶段一:行为克隆微调(SFT),用专家轨迹或策展数据预训练模型,奠定基础能力;阶段二:强化学习优化(PPO / DPO),针对环境或偏好精调模型策略。第二,交替优化。 即引入迭代交替机制,在SFT和RL之间多轮来回切换,以实现细粒度提升。 相比参数微调,参数无关的优化方法不涉及模型权重更新,而是通过调整Prompt、上下文和外部信息结构,在资源受限或轻量部署场景中展现出强大潜力。 作者将其分为五类核心策略: 第一类,基于经验的优化。 通过记忆模块或历史轨迹,让Agent“学会复盘”,从过去成功与失败中提炼策略,增强长期适应性。 第二类,基于反馈的优化。 Agent通过自我反思或外部评估不断修正行为,形成迭代闭环;还有方法通过元提示优化调整全局指令结构,提升泛化能力。 第三类,基于工具的优化。 让Agent学会使用工具(如搜索、计算器、API)以增强执行力。部分方法优化工具调用策略,部分则训练Agent构建更高效的任务-工具路径。 第四类,基于RAG的优化。 结合检索与生成,通过从数据库/知识库中实时获取信息增强推理过程,尤其适合知识密集型任务和变化快速的场景。 第五类,多Agent协作优化。 多个LLM Agent协同完成任务,通过角色分工、信息共享与反馈机制实现1+1>2的协同智能。 参数无关优化,让LLM Agent在不动模型的前提下,变得更“聪明”、更“适应”、也更“轻巧”。 作者将数据和基准分为用于评估和微调的两个大类。 评估任务分为两类。 第一类,通用评估任务。 即按一般任务领域分类,如数学推理,问题推理(QA)任务,多模态任务,编程等。 第二类,多任务评估基准。 跨各种任务评估基于LLM的智能体,测试它们概括和适应不同领域的能力。 Agent微调数据集,则是针对Agent微调而精心设计的数据,以提高LLM Agent在不同任务和环境中的能力。 随着优化方法的不断成熟,基于LLM的智能体已在多个真实场景中崭露头角,逐渐从实验室走向实际应用: 数据偏差问题。 Agent高度依赖数据质量,然而预训练数据与微调轨迹分布不匹配,再加上LLM自身生成与评估带来的潜在偏差,易导致性能不稳定。 未来可探索偏差测试、对抗训练、知识边界评估等方法,构建更稳健的数据基础。 算法效率与适应性。 当前强化学习与微调方法在面对稀疏奖励、大动作空间、多步交互时存在成本高、效果差的问题。 如何提升DPO等轻量方法的多轮能力,或探索RL+SFT的混合训练、元学习、自监督方法,将是未来重点。 跨任务跨领域迁移难。 许多方法在单一任务上表现优秀,但在新环境或真实世界中易失效。 需要发展更强的泛化机制,如任务分布对齐、域适应、多任务联合训练等,提升模型迁移与适应能力。 缺乏统一评估标准。 Agent在不同任务(如数学推理、网页导航、具身AI)中使用不同指标,难以横向比较。 建立统一的评估基准,引入推理复杂度、适应性与偏好评分等新维度,将推动Agent研究向更系统、可比的方向发展。 参数驱动的多智能体优化缺失。 目前多智能体策略多依赖冻结LLM,缺乏联合参数训练机制,限制了协同智能的发展。 未来应探索多智能体联合微调、奖励共享机制、层级控制策略,提升整体系统能力与协作水平。 arXiv链接:https://arxiv.org/abs/2503.12434 GitHub链接:https://github.com/YoungDubbyDu/LLM-Agent-Optimization — 完 — 量子位 QbitAI · 头条号 关注我们,第一时间获知前沿科技动态 坐落全国首个“5G+无边界大学城”,这所大学科技感十足,学生用5G+VR做实验!教育信息化是国家信息化建设的重要组成部分和战略重点,是教育改革发展不可或缺的支撑和推动力。多年来,东华大学一直遵循“以学生的全面发展与成才为中心”的办学理念,持续深化教育教学改革。如今,走进东华校园,智慧课堂、5G+VR实验室、AI 小助手等打破传统形态的设施和装备引人注目。今天,就让我们一起漫步东华校园,感受校园中的科技力量吧。 伴随5G网络建设的快速推进,5G+VR的组合也正在慢慢完善,根据自身特性,这对“科技拍档”能够为人们带来身临其境般的“沉浸式”体验。在东华大学,这样的科技创新早就“有迹可循”。 早在举办2020届毕业典礼时,东华就与上海联通携手为未能到校的毕业生带来了“5G+VR”360°全景沉浸式直播。通过该技术,同学们能够共同见证这场毕业典礼。同时,借助5G网络,毕业典礼会场的每一帧直播画面都实时传递,保障了低延迟、沉浸式、高清晰的直播观看体验,为5000余名毕业生打开了一组匠心独运的典礼“视窗”。 但是,随着5G+VR产业的发展,高素质复合型工程技术人才供给不足等问题成为亟待突破的主要瓶颈。而坐落于全国首个“5G+无边界大学城”的东华大学,则能够为复合型人才的培养贡献力量。 利用5G网络,东华大学积极探索基于新技术下的教学模式,建设了5G+VR实验室,可以让同学们在课外任意地点进行VR实验操练,也可以完成跨校区的VR实验指导与团队实验协作功能,解决传统实验高危险、高消耗等问题。 由中国电信、松江九所高校联合申请的“构建5G+无边界松江大学城 5G+VR让生活变得更好,也让教育教学有了新模样。希望各位东华学子能够利用新兴科技,增加知识储备、增长科技思维,为祖国科技创新挥洒青春汗水。 “互联网+教育”是在对互联网技术进行充分利用的技术上,深入对教学方式、管理等方面进行改革,是互联网时代教育教学方式与方法的进阶。这种教育与网络相结合的方式,在东华大学也十分常见。 东华大学依托互联网的云计算、大数据、络技术,以开放、平等、共享的互联网精神为内核,首创“基于‘互联网+’的‘智慧课堂’教育教学模式”,把第一课堂融入互联网,形成可供复制和推广的教学实践经验、教学模式、教育样式、网络学习的教学新生态。 此教学模式提升了第一课堂上的师生互动率,形成了学生的主动学习模式,提升学校教务教学和管理智能化水平,推动了第一课堂教育效果、教育体验的升级,曾荣获 “纺织之光” 2017年度中国纺织工业联合会纺织教育教学成果一等奖。此外,这一模式也吸引了全国百余所高校、多个省份的教育厅前来东华参观调研、交流学习。 选择东华,选择更多可能,青春逢盛事、奋斗正当时!愿同学们的梦想能够在东华起航! 今天,数字生活已触手可及,只要一部手机,购物、交通、住宿等生活需求都能解决。东华大学也将这份便利带进校园,用数字科技,点亮同学们的“新”生活。 为东华学子带来智慧新体验的有“东华大学网上服务大厅”,消息、办公、邮件、提醒、事务、日程等所有需要的、想要的,都能通过这个平台一键搜索,快速定位。达成“一站式”服务模式,省心又省时。 在这一服务大厅中,还隐藏着一个东华人的专属“个人数据中心”,它能够实现个人数据的大集成,也可用来展示各个业务系统中关于工作、学习、生活、考核等方方面面的零散数据,从而更加简单、直观反映数字画像,同时支持H5设计规范,在企业微信移动端能够自适应展示,与PC端实现无缝衔接。东华个人数据中心,记录的不仅是数据,更是同学们在学校成长的足迹。 下一个提升校园幸福感的“萌物”是东华AI小助手, 作为东华最年轻的虚拟角色,小助手全天24小时工作,帮助东华师生包括新生,解答一系列校园生活问题,提供及时、权威、准确的解答服务。 这个可爱的小助手拥有全校所有部门老师完善的知识库和健全的语言匹配系统,Ta可以查询课表、日程;会随时根据师生提出的热门问题进行更新,并且准确识别出提问的内容;Ta也可以帮助同学们免去到处找校园信息的烦恼……自上线以来,东华小助手一直陪伴着每一位东华师生,让校园生活更加便捷。 除了以上提到的几个方面,东华大学还有其他科技感十足的建设项目,能够提升同学们学习中的参与感、获得感,能够帮助大家在校园生活中获得幸福感、便利感。东华大学的“科技范”还需要各位学子慢慢发现和体验。 未来,东华大学将继续将校园建设、课堂建设与数字化、智能化相结合,提高人才培养能力、打造人才成长沃土,“严谨、勤奋、求实、创新”的东华人一直前行在路上! 关注“东华大学本科生招生”头条号,获取关于国家“211工程”、国家“双一流”建设高校——东华大学的最新精彩资讯! 用户评论 男神大妈 终于不用跑到教学楼排队了! 有8位网友表示赞同! 伪心 手机里就能完成所有操作?太方便啦! 有5位网友表示赞同! 容纳我ii 以前教务流程一点都不人性化,希望能有更多优化! 有10位网友表示赞同! 心脏偷懒 东华的网站是不是要改版一下?很久没更新感觉有点陈旧! 有15位网友表示赞同! 素颜倾城 想了解最新的学业相关信息可以去这个平台看看吧! 有9位网友表示赞同! 秘密 希望网上服务大厅能够更全面一点,能查询到更多资源! 有5位网友表示赞同! 将妓就计 以后修课应该就能在线上完成了吧?太棒了! 有14位网友表示赞同! 旧事酒浓 东华的官方网站一直都做得不错,这个服务大厅也很好用! 有17位网友表示赞同! 裸睡の鱼 网上办理业务比线下快很多时间,太值得鼓励了! 有19位网友表示赞同! 满心狼藉 如果能实名认证一下,保证账户安全好一点呢! 有6位网友表示赞同! 滴在键盘上的泪 还有哪些可以操作的呢?不知道能不能查询成绩单什么的! 有18位网友表示赞同! 屌国女农 这个平台的界面是不是有点难用啊,需要改进一下! 有5位网友表示赞同! 轨迹! 以后上课缴费应该也能线上完成吧?多便捷! 有14位网友表示赞同! 来自火星的我 希望网上服务大厅能提供24小时服务,方便学生随时查询! 有7位网友表示赞同! 迷路的男人 学习成绩预科的同学也能使用这个平台吗? 有9位网友表示赞同! 风中摇曳着长发 能不能分享一下具体的网站地址?我要去试试! 有5位网友表示赞同! 冷风谷离殇 这真是个福利啊!以后不用为了办业务跑到学校里了! 有14位网友表示赞同! 放肆丶小侽人 方便学生解决日常事务,提高服务效率! 有15位网友表示赞同! 淡写薰衣草的香 东华大学越来越数字化了! 有18位网友表示赞同! 快速报名 学生姓名 意向学校 意向专业 联系方式 请输入正确的电话号码 或许你还想看: 东华大学官方服务平台:教务处在线服务专区 如何申请新加坡学习的艺术专业学生 2024年考研时间表详解:考试时长及安排一览 点赞 免责声明 本站所有收录的学校、专业及发布的图片、内容,均收集整理自互联网,仅用于信息展示,不作为择校或选择专业的建议,若有侵权请联系删除! 大家都在看 上一篇 2024年考研时间表详解:考试时长及安排一览 下一篇 返回列表 大家都在看 东华大学官方服务平台:教务处在线服务专区 火,Agent可太火了!关于Agent的进展俯拾皆是,根本看不过来……看过来——这篇综述可能能帮你厘清很多问题:来自华东师大和东华大学的研究团队发表了“ASur 艺考知识 2025-06-24 如何申请新加坡学习的艺术专业学生 近年来越来越多的艺术生开始选择前往新加坡留学,对于国内艺术生来说,申请去新加坡留学的入学条件才是他们急需关注的新加坡留学申请信息。艺术生和文科生以及理科生在申请 艺考知识 2025-06-24 2024年考研时间表详解:考试时长及安排一览 34月(基础阶段)重要时间点3月中旬:考研国家线及34名复试分数线公布34月:全国各研招单位的复试调剂工作已陆续开展主要任务根据考试大纲进行基础复习、梳理刚开始 艺考知识 2025-06-24 正式发出通知,以降低中学生进入大学的门槛,并逐渐建立“职业教育学院入学考试”系统“系统” 文|暮沐教育日记 (原创,欢迎个人转载分享)就现状而言,我国的中专职校与普通高中相比,无论是校内学习氛围,还是未来发展,实际上都有很大区别,一言以蔽之,前者不如 艺考知识 2025-06-24 在俄罗斯学习|无预科课程的直接本科课程,为美术系学生取得成功的独家途径! 对于俄罗斯留学的艺术类院校,相信大家都非常熟悉了,比如列宾美术学院、莫斯科国立柴可夫斯基音乐学院、莫斯科国立苏里科夫美术学院、俄罗斯国立舞台艺术大学、圣彼得堡音 艺考知识 2025-06-24 Chen Lijun和Li Yunxiao都从这里毕业!杭州的“艺术次要大学入学考试”的注册达到了创纪录的高度,订单类的注册率最高,达到30:1 “这里走出过茅威涛,现在又培养出陈丽君,我们相信这所学校有让传统戏曲‘活起来’的土壤。”2025年浙江艺术学校(浙江艺术职业学院附属中专)招生考试的现场,一名温 艺考知识 2025-06-24 上海及广东地区大学排名一览 复旦大学中国顶尖综合性大学,C9联盟成员,QS世界大学排名常年位居中国前列。优势学科:人文社科、医学、理学、管理学等。上海交通大学中国顶尖工科大学,C9联盟成员 艺考知识 2025-06-24 向父母报告,这就是电影和电视部门中学课的孩子学会表演的方式! 5月7日下午,在陕西艺术职业学院狄寨校区实训楼六楼表演教室,影视系17级中专表演班的学生们展开了一场别开生面的期中汇报——《动物模拟表演》。影视系主任张卫平、影 艺考知识 2025-06-24 郑州技术学院- 河南艺术职业学院技术学院,如果您申请考试,您必须知道该怎么办 郑州中专学校—河南艺术职业学院中专部,报考必须要知道的5星推荐,省属公办学校历史河南艺术职业学院中专部隶属于河南艺术职业学院,始建于1956年,前身为河南省戏曲 艺考知识 2025-06-24 未来就业前景看好的师范专业解析:二本师范毕业生就业机会与挑战 山东省虽然作为教育大省,但是教育资源较其他省来说还是相对短缺,211高校只有山东大学、中国海洋大学、中国石油大学,其他院校知名度则没有那么高了,但是这些学校里还 艺考知识 2025-06-24