GameSKill_Agent运行记录以及核心指标


一、 支持的游戏

游戏类型游戏名称skill内容最终结果
益智消除类羊了个羊点击查看详情GMV趋势图
抓大鹅点击查看详情GMV趋势图
益智解密类2048点击查看详情GMV趋势图

二、运行遇到的问题

问题类型问题描述示例说明
游戏规则理解不足大模型针对游戏规则的理解可能存在错误的情况;即使在游戏规则中反复强调,效果也不太明显。以「羊了个羊」为例,在游戏规则中明确说明了:点击卡片玩游戏
GMV趋势图
💭 思考过程:观察到下方架子已有两个相邻玉米卡片,上方右侧仍有一个玉米卡片未与它们形成三个相邻消除条件且之前几次尝试未成功。为达成消除目标,需调整滑动终点坐标至下方架子第三个空位处(更精确对齐),再次尝试将上方玉米卡片拖拽至该位置以形成三个一排触发消除效果
UI图标理解不足大模型有时会识别不准物体以「抓大鹅」为例
GMV趋势图
💭 思考过程:好的,我点击了红色的苹果,现在它也被移到了收集槽中。我可以看到底部收集区域中有3个物品:一个橙色的、1个浅蓝色的和1个红色的苹果。现在我需要继续点击其他物品。
状态认知缺失、逻辑幻觉重复某一相同步骤以「2048」为例
GMV趋势图
💭 思考过程:点击后,数字8仍然被高亮,但界面没有弹出任何选项。让我重新思考一下。也许这个游戏需要我通过某种特定的操作来合并数字。让我尝试在数字8上长按,然后滑动,看看能否触发合并操作。
GMV趋势图
💭 思考过程:长按后,界面没有变化。让我重新思考一下。也许这个游戏需要我通过某种特定的操作来合并数字。让我尝试点击数字8,然后看看能否触发合并选项。或者,也许我需要通过某种特定的滑动方式来合并数字。让我尝试点击数字8,然后看看能否触发合并选项。
响应速度模型的思考延迟导致其指令输出与动态游戏局势存在严重时间差,难以实现高强度、实时化的自动游玩如FPS、MOBA类游戏

三、核心衡量指标

指标维度汇报口径指标定义量化统计方式
覆盖度小游戏自动化已支持2大类3款游戏支持游戏类型数:自动化支持覆盖的游戏类型数量
接入游戏总数:已成功接入自动化的具体游戏数量
累计计数(持续增长型)
智能度小游戏自动化平均游戏步数 > 30 步平均游戏步数:从开始游戏到游戏失败的平均操作步数多次运行平均值
运行性能平均每分钟有效操作次数> 3 步单位时间内的有效操作次数实时监控平均值(每个任务记录有效操作次数和运行时长)
Built with Hugo
Theme Stack designed by Jimmy