腾讯TiG框架突破!AI在王者荣耀中学会战略性思考
2025-10-06 14:00:20
出处 :
点击 : 0次
评论 : 0
腾讯研究团队于2025年9月提出全新TiG(Think in Games)框架,利用《 王者荣耀 》作为训练环境,成功弥合了大语言模型(LLM)战略推理与实时决策间的能力鸿沟。该框架通过40种预定义宏观动作(如“推上路”、“夺龙”)将游戏状态转化为语言建模任务,采用监督学习(SFT)与强化学习(GRPO)两阶段训练法,使Qwen3-14B模型在游戏决策中达到90.91%的准确率,超越参数量更大的DeepSeek-R1(86.67%),并保留原有文本理解与数学推理能力。
研究团队指出,目前的 AI 模型存在明显的功能鸿沟,以游戏为取向的 AI 能正常游玩但无法理解自己所做的决策,而语言模型虽然可以推理策略,但很难真正执行操作,为此他们研发了全新 TiG 框架,让模型在游戏中同步思考、行动。 newhanawa.createAdBanner("pczwdadad1s");
团队选择以《王者荣耀》游戏作为训练范本,先使用匿名且标准化的赛事数据定义推上路、击杀暴君、守家等 40 种宏观行动,胜负回数均衡,AI 模型们必须要在每个定义好的场景下选择最佳策略,并解释其战略缘由。
具体来说,训练分为两个阶段,首先是在监督中学习,弄清楚这些策略的基本机制;随后通过奖励机制进行强化学习,如果行动正确能得 1 分,错误行动则得 0 分。
随后团队测试了多种语言模型,涵盖 Qwen2.5(7B、14B、32B)、Qwen3-14B 模型,并使用 DeepSeek-R1 大模型作为对照组;先从 DeepSeek-R1 提炼高质量训练数据,然后使用群体相对策略优化(GRPO)技术,比较不同策略之间的优劣。
最终经过 TiG 框架训练的模型不仅能制定行动计划,还能解释原因,例如 AI 会指出某个防御塔防守薄弱,是理想的进攻目标,但需要注意埋伏的敌人。模型训练后仍保持原有的文本理解、数学推理与问答能力。
最终测试结果如下:
对照组 DeepSeek-R1:决策准确率达 86.67%
Qwen3-14B:决策准确率达 90.91%,超越 DeepSeek-R1
Qwen2.5-32B :准确率从 66.67% 提升至 86.84%
Qwen2.5-14B:准确率从 53.25% 提升至 83.12%
《率土之滨》联动汉中勉县文旅 共启【北伐兴汉】新赛季
2天见证新时代游戏研发的速度与潜能 —— TapTap聚光灯48小时GameJam开启报名
我们来到了PUBG全球系列赛现场,见证了新王的诞生
Computex 2025: RTX 5060上市,超125款游戏和应用支持DLSS 4
NVIDIA与微软推进RTX AI PC开发进程
《鸣潮》公开新角色"夏空"PV及战斗演示!
《龙之谷:经典再现》5月29日公测!MC HotDog热狗代言助阵
《Pokémon GO》开启"强大与极致最终章:铁臂全球大挑战"活动
《光遇:双星》动画电影首度公开!将于游戏内限时放映
1
《阈限点》女主造型引争议!被指模仿克莱尔
2
《羊蹄山之魂》女主泡温泉视频 玩家对比两作角色设计
3
石井恵梨香献声《羊蹄山之魂》!多部作品见证成长
4
《剑星》体模时尚写真更新!多风格切换
5
XGPU涨价后强推广告!玩家退订挤爆服务器
6
叶奈法成综合性角色!打破单一原型限制
7
《二重螺旋》彻底取消抽卡!转向外观付费模式
8
《寂静岭f》日本首周5.7万份!接近PS2原版纪录
9
《羊蹄山之魂》10月2日发售!伦敦广告牌引爆关注
10
分析师预警索尼将跟进!定价跟随策略曾上演
1元钱就能当「股东」,还线下「真实」策划?这款老游戏在密谋什么?
一命到底鏖战9小时《街头篮球》铁壁阵营笑到最后
《DNF手游》70级版本正式上线:官方pc模拟器也来啦!
武侠自走棋+海上搜打撤?逆水寒手游3.0新赛年玩疯了
1
CSGO首次免费开箱网站有哪些 新人第一次免费的cs开箱网分享
2
首次免费的CSGO开箱网站有哪些 能白嫖开箱CSGO网站大全
3
CSGO新手推荐开箱网站 新手免费的CS2开箱网站推荐
4
CSGO有哪些免费开箱网站 分享5个免费的cs开箱网站
5
CSGO有哪些免费开箱网站 分享5个首次免费的cs开箱网站
6
三角洲行动护航陪玩价格表 技术陪与娱乐陪实战效果对比
7
《三角洲行动》突击干员“红狼”全面解析!战场上的高机动性杀戮机器
8
《三角洲行动》干员威龙全解析!突击利刃撕裂战场
9
梦幻西游长安城是哪个区 梦幻西游长安城介绍
10
梦幻西游新服长安城值得玩吗 畅玩服长安城选区建议






下一篇:返回列表