人形机器人场景应用挑战赛

形式:单智能体点球赛线上仿真初赛+线下仿真决赛(线上与线下规则一致)、多智能体足球赛线上仿真初赛+线上仿真决赛(多智能体无线下赛)、单智能体人形机器人障碍赛线上仿真初赛+线下仿真决赛(线上与线下规则一致)。

赛道负责单位:燕山大学计算机系

基于大模型的人形机器人场景应用挑战赛

(1)单智能体点球赛

1.规则概述

1.1 竞赛内容

本赛项聚焦于单智能体学习,希望通过射门比赛的形式,搭建起一个开放的竞技平台,共同推动具身智能发展。比赛要求参赛团队使用九格4B大模型并通过算法控制仿真环境下的机器人完成点球比赛。本次比赛旨在激发参赛团队在决策算法优化、大模型训练等方面的创新思维,推动具身智能理论和技术的突破,为未来单智能体技术发展培养更多优秀的人才。

2.比赛环境及队伍要求

2.1 比赛环境

比赛使用的仿真环境按照真实足球场尺寸进行等比例调整,并配有环境鹰眼图以便进行观察。比赛时长以帧数衡量,点球场景中一轮时长为25帧,共七轮。(实际运行时长与电脑配置相关)。

环境状态包括球信息、射门球员控制信息、比赛信息。射门球员动作分为等待动作、移动动作、射门动作,其他动作等。参赛队伍需要使用九格大模型对环境状态进行分析,以确保射门球员能高效决策,有效得分。

2.2 队伍要求

比赛形式为1对1点球大战,其中参赛队伍通过九格大模型控制射门球员(进攻方)进行点球射门。守门员使用环境中固定的配置。参赛队伍可自行设计控制算法进一步优化九格大模型的控制。

3.参赛要求

3.1 参赛人数

每队≤10人,指导教师≤2人。

3.2 参赛技术要求

参赛队伍需要独立进行编码工作,并生成可加载运行的策略程序(.py文件)。全场比赛一共进行七轮射门。

策略提交。参赛队伍需在规定时间内在比赛平台提交规定格式的策略文件,提交后系统会对策略文件进行格式、接口、重复度三项检测,三项检测全部通过即代表提交成功,策略提交成功方可进行自动比赛与排位。

策略查重。主办方会对队伍提交的策略文件进行相似度审核,若文件出现以下情况:1.策略与互联网上的开源策略相似度过高;2.策略与官方提供的样例策略相似度过高;3.不同参赛选手的策略互相之间相似度过高(一般策略相似度≥80%视为策略重复)。若出现策略重复,由仲裁委员会公布处理办法。

策略故障。若比赛中有一方队伍策略出现加载失败、报错、异常等情况,先出现故障的一方判负,比分显示为“异常”。

比赛全程自动进行,每场比赛结束均可下载比赛回放数据(策略故障则无比赛数据)。

3.3 设备要求

(1)必须使用主办方提供的射门仿真环境。

(2)禁止更换九格大模型,同时严禁改动仿真运行速度。

4.比赛过程

4.1 赛程赛制

(1)射门比赛进行七轮,选手需要统计进球数量与进球时间;比赛最后的名次按照最终得分的总和来排列。

总成绩=进球数*10+技术汇报得分。

如果出现得分相同的队伍,则按照比赛用时来进行排定:任务得分相同的数只队伍,七轮比赛进球总用时短的名次排在前面。

(2)参赛队伍应准备好技术讲解PPT来对自己的策略技术进行讲解;在七轮比赛完成后需将完整比赛录制视频、源代码、汇报PPT、PPT讲解视频上传,上传压缩文件夹命名格式为项目名称_团队名称_EICON2025。

4.2 评分标准(共100分)

比赛形式为线上比赛,共进行7轮射门,每轮10分(进球得10分,未进球0分),技术汇报30分(比赛录制视频、源代码、汇报PPT、PPT讲解视频共计30分),源程序代码,源程序运行完整比赛录像,汇报用PPT,PPT讲解视频等共计30分。总成绩=进球数*10+技术汇报成绩。

表4-1 人形机器人点球赛道计分表

轮次 是否进球(是/否) 用时(秒) 成绩
射门成绩 1
射门成绩 2
射门成绩 3
射门成绩 4
射门成绩 5
射门成绩 6
射门成绩 7
技术汇报成绩
总成绩

4.3 违规处理

(1)技术违规:擅自修改禁止项(如更换大模型),直接取消成绩。若未提供源码或任务实现与源码呈现不同,直接取消成绩。

(2)重复率过高:若是最终提交策略重复率超过80%,直接取消比赛成绩。

5.其他说明

出现争议的情况以裁判判定为准。

(2)多智能体足球赛

1.规则概述

1.1 竞赛内容

本赛项要求参赛队伍使用九格4B大模型完成11V11的多智能体足球赛。比赛重点考核对于九格大模型的理解与应用,以及对强化学习、多智能体协同决策等人工智能理论的应用情况。

2.比赛场地要求

2.1 场地要求

仿真环境按照真实足球场尺寸进行等比例调整,并配有环境鹰眼图以便进行观察。该环境实现了标准规则下的完整足球比赛,这些规则包括门球、边球、角球、黄牌和红牌、越位、手球和点球。比赛时长以帧数衡量,一场完整的比赛的默认时间是3000帧(实际运行时长与电脑配置相关)。

环境状态包括球信息(坐标、速度、方向等)、队伍信息(球员位置、球员速度、球员疲劳、球员是否有黄牌/红牌等)、控制信息(控制球员信息、带球球员信息、可执行动作信息等)、比赛信息(得分、剩余步数、比赛状态等)。环境动作分为等待动作、移动动作、传球/射门动作,其他动作等。

图4-1 多智能体足球赛环境图

3.参赛要求

3.1 参赛人数

每队≤10人,指导教师≤2人。

3.2 设备规范

(1)本比赛仅在仿真环境下进行。

(2)禁止更换九格大模型,同时严禁改动仿真运行速度(如人形机器人运动瞬移)。

3.3 智能体数量要求

参加比赛的智能体数量为11。

4.比赛过程

4.1 赛程赛制

(1)根据参赛队伍的数量,决定比赛的轮次。在时间允许的前提下,可进行两轮比赛(如果时间不允许,则比赛为一轮)。

(2)每位选手提交策略后,与主办方AI进行对决,根据对决结果确定其排名。若该选手已有名次,则再次提交策略后,将重新与主办方AI对决,并根据已取得的最好结果调整排名。

(3)参赛队伍应准备好技术讲解PPT来对自己的策略技术进行讲解;比赛结束后需将完整比赛录制视频、源代码、汇报PPT、PPT讲解视频上传,上传压缩文件夹命名格式为项目名称_团队名称_EICON2025。

4.2 比赛任务

比赛环境是11对11对抗赛,每个球队由1名守门员、3-5名后卫、2-3名中场球员以及3-5名前锋组成,具体的阵容配置可能会根据球队的比赛策略、球员能力和教练战术而有所不同。其中,参赛队伍使用九格大模型并采用多智能体策略算法训练团队协作策略。

本次比赛参赛队伍需要独立进行编码工作,并生成可在官方平台加载运行的策略程序(.py文件)。在本项目中,双方各有11个机器人作为球员,全场比赛一共3000步。比赛开始后,双方需要通过后卫、中场和前锋等不同球员间的配合将球射入对手球门,并在防守过程中守住己方球门。期间,电子裁判会根据规则对球员的行为进行判罚,若违规则进行相应惩罚。

注意参赛选手需在规定时间内在比赛平台提交规定格式的策略文件,提交后系统会对策略文件进行格式、接口、重复度三项检测,三项检测全部通过即代表提交成功,策略提交成功方可进行自动比赛与排位。

4.3 评分标准(共100分)

(1)最终比赛形式为线上比赛,最终得分足球赛成绩70分,技术汇报30分加权计算总成绩。总成绩=足球赛成绩+技术汇报得分。其中技术汇报包括比赛录制视频、源代码、汇报PPT、PPT讲解视频共计30分。

(2)比赛将按照选手赛场比分成绩(即净胜球数)进行排名(若比分为x:y,其中x为选手进球数,y为对方进球数,则比分成绩为x-y)。如果出现比分相同的队伍,则按照比分确定时间(即比分在比赛中不再发生变化的时间)决定先后顺序(比分相同的数只队伍,确定时间较短的名次排在前面)。最终足球赛成绩与排名相关。

足球赛成绩=70 -(排名 -1)* 70 ÷ 队伍总数

(3)比赛结束后需将完整比赛录制视频、源代码、汇报PPT、PPT讲解视频上传,若未上传材料不得分,任务实现与源码呈现不同也不得分。

4.4 违规处理

(1)技术违规:擅自修改禁止项(如更换大模型),直接取消成绩。

(2)操作违规:未及时报告设备故障或干扰他队,扣10分/次。

(3)重复率过高:若是最终提交策略重复率超过80%,直接取消比赛成绩。

5.其他说明

出现争议的情况以裁判判定为准。

(3)单智能体人形机器人障碍赛

1.规则概述

1.1 竞赛内容

本赛项聚焦九格大模型与强化学习的协同创新,要求参赛队通过九格大模型决策驱动单智能体在格物仿真环境中完成全自主军用体能训练任务。比赛重点考核大模型在复杂运动控制中的决策能力、强化学习算法设计能力以及军事训练场景的技术适应性,最终实现智能体从零学习到精准执行的全过程控制。

2.比赛场地

2.1 场地要求

比赛基于格物具身智能仿真平台,在该平台进一步实现了军用体能训练规则下的完整训练流程,并配有相机视角以便进行观察。

参赛队伍需要使用九格大模型对环境状态进行分析,并为智能体提供当前状态的最优动作策略,以确保智能体在各项训练科目中都能高效执行,有效得分,其中环境状态和环境动作的具体使用方法可见格物仿真平台的官方文档。

比赛形式为单智能体人形机器人障碍赛,参赛队控制1个人形智能体完成六项连续训练科目。参赛队员必须使用九格大模型控制智能体进行决策,智能体使用格物仿真环境中的人形机器人配置,同时参赛队伍可自行设计强化学习算法进一步优化九格大模型的控制效果。功能区包括起点区、S形绕杆、平衡木区域、踩梅花桩区域、穿越门窗区域、翻轮胎区域、点球射门区域。

3.参赛要求

3.1 参赛人数

每队≤10人,指导教师≤2人。

3.2 设备规范

(1)主办方提供格物仿真环境,选手无需自备硬件。

(2)严禁更换九格大模型,仅允许完善优化算法、奖励函数设计及环境感知策略(主办方提供基础demo及培训)。

3.3 机器人技术要求

(1)机器人数量

每支参赛队可以用于比赛的智能体数量为一个。

(2)独立性

参加比赛的智能体必须是通过强化学习自主训练的,比赛中的任何手动控制行为都视为犯规,将会被取消比赛资格。当智能体开始执行任务后,参赛队将不能再次干预智能体,之后的所有任务都将由智能体自主完成,直到比赛结束。

4.比赛过程

4.1 赛程赛制

(1)根据参赛队伍的数量,决定比赛的轮次。在时间允许的前提下,可进行两轮比赛(如果时间不允许,则比赛为一轮)。在比赛前各队进行抽签,所抽顺序决定参赛队在两轮比赛中的上场顺序。

(2)比赛环节中以裁判的命令为开始信号。

(3)比赛限时15分钟。

(4)比赛最后的名次按照任务得分的总和来排列(如果是两轮比赛,取各队两轮比赛的最高分进行排列),如果出现任务得分相同的队伍,则按照比赛用时来进行排定:任务得分相同的数只队伍,比赛用时短的名次排在前面。比赛过程中参赛队可以主动要求放弃比赛来获得较短的比赛终止时间。

(5)参赛队伍应准备好技术讲解PPT来对自己的策略技术进行讲解;比赛结束后需将完整比赛录制视频、源代码、汇报PPT、PPT讲解视频上传,上传压缩文件夹命名格式为项目名称_团队名称_EICON2025。

4.2 比赛任务

要求参赛队伍通过Unity ML-Agents框架训练智能体,使用九格大模型进行每步决策,在跑道中完成全自主体能训练任务。智能体需依托九格大模型的决策推理能力(必选,未使用直接判0分),结合强化学习算法从零开始学习,通过Unity物理引擎实现精准的运动控制,在标准化训练环境中依次完成S形绕杆、平衡木、踩梅花桩、穿越门窗、翻轮胎、点球射门六项军用体能科目。

具体任务如表4-2所示:

表4-2 单智能体人形机器人障碍赛竞赛流程

任务序号 训练科目 任务要求
任务一 S形绕杆 从起点出发绕杆跑到终点
任务二 平衡木 在平衡木上行走,不得落地
任务三 踩梅花桩 踩踏立桩中心,保持平衡通过
任务四 穿越门窗 穿越圆形门窗,不得碰撞
任务五 翻轮胎 将轮胎完全翻转
任务六 点球射门 将足球射入球门

4.3 评分标准(共100分)

(1)最终比赛形式为线上比赛,最终得分障碍赛成绩70分,技术汇报30分加权计算总成绩。总成绩=障碍赛成绩+技术汇报得分。其中技术汇报包括比赛录制视频、源代码、汇报PPT、PPT讲解视频共计30分。

(2)比赛将按照每队机器人在各任务中的完成情况打分,若机器人在执行任务时未在规定时间穿过规定任务区域则视作任务执行失败,按0分计做此任务成绩,若机器人在执行任务时在规定时间内穿过任务区域则视作任务执行成功,按表4-3的评分标准进行判断。

表4-3 单智能体人形机器人障碍赛评分标准

任务 训练科目 得分规则 扣分项
任务1 S形绕杆 绕过所有立杆+10分 未绕过所有立杆得0分
任务2 平衡木 通过平衡木+10分 从平衡木跌落得0分
任务3 踩梅花桩 成功通过所有梅花桩+10分 跌落立桩得0分(漏踩不扣分)
任务4 穿越门窗 成功穿越门窗+10分 未能穿越得0分
任务5 翻轮胎 成功翻转轮胎180°+20分 翻转失败得0分
任务6 点球射门 足球进入球门+10分 球未进门或未触球得0分

(3)比赛将按照选手成绩(即任务总分)进行排名,如果出现比分相同的队伍,则按照完成比赛时间(即若机器人完赛则为各任务的总时间,若机器人未完赛则为完成任务的总时间)决定先后顺序(比分相同的数只队伍,确定时间较短的名次排在前面)。

以下为人形机器人障碍赛计分表:

表4-4 单智能体人形机器人障碍赛计分表

任务 是否完成 用时 备注
任务一
任务二
任务三
任务四
任务五
任务六
技术汇报得分

4.4 违规处理

(1)技术违规:擅自修改禁止项,直接取消成绩。

(2)操作违规:未及时报告环境异常或干扰他队,扣10分/次。

(3)安全违规:智能体异常行为导致环境崩溃,一次扣5分,最多扣4次。

(4)重复率过高:若是最终提交策略重复率超过80%,直接取消比赛成绩。

5.其他说明

出现争议的情况以裁判判定为准。