【环球时报报道 记者 陈子帅】11月9日,第十五届全国运动会(下称“全运会”)开幕式在广东奥林匹克体育中心举行。开幕式上,人形机器人奏响了两千多年前的青铜打击乐器句鑃。机器人究竟如何像人一样有节奏地打击乐器?其背后的技术挑战有多大?相关人形机器人专家告诉《环球时报》记者,最大的难点在于机器人对“力”的柔性控制,不是简单“敲到”就可以,而是要“敲好”。

每一次敲击都必须达到高精度
据报道,此次全运会开幕式的运行总监张树荣介绍说,机器人打击青铜乐器是“精准击打”,“其难度之前全世界都没有过”,即3台机器人要按照音乐的旋律来配合完成演出,每个音都要打到句鑃上。根据高中低音的不同,锤子的落点也不同。
深圳市人工智能与机器人研究院具身智能中心主任刘少山10日接受《环球时报》记者采访时表示,人形机器人精准击打青铜乐器的挑战主要体现在三方面。其一,要让青铜乐器稳定发出准确而优美的声音,每一次敲击都必须达到高精度。声音由敲击位置、力度和角度共同决定,容不得“差不多”。这就要求机器人本体具备高刚度机械结构和高精度伺服驱动,搭配编码器、力矩控制等技术,确保末端击槌在指定时间、指定轨迹、指定速度落在指定位置。
其二,本次演出并非一两次示范动作,而是持续数分钟的长序列演奏,上百次乃至上千次敲击都必须保持节奏稳定、力度均衡。这要求系统能够在整段节目中持续进行高频闭环控制,抵御热漂移、机械微小变形、支架振动等因素带来的累计误差,避免出现“越到后面越不准”的情况。只有具备完善的轨迹规划、状态监测与误差校正能力,才能在大型文体活动的直播环境下,经受住放大镜般的现场与镜头考验。
其三,多台机器人的协同演奏。为确保画面和声响的整体一致,多机系统必须在同一时间基准下运行,实现毫秒级同步。现场通常依托统一的主控系统下发节奏与触发信号,通过本地低时延网络连接各台机器人,保证不同机位的敲击动作在时间与空间上高度一致,同时避免机械轨迹之间的干涉风险。
面临多项挑战
另一位人形机器人专家10日告诉《环球时报》记者,从表演难度来看,机器人敲击乐器,“和我们在工厂流水线上看到的那些进行抓取、焊接的机器人是完全两个概念”。他说,工厂里的机器人,核心任务是“重复”,即在固定的轨道、对固定的物体做固定的动作。而开幕式上的机器人,核心任务是“表演”,是艺术和技术的结合。
专家说,最大的难点在于“力”的柔性控制。“这不是简单‘敲到’就可以,而是要‘敲好’。青铜乐器的发声对敲击的力度、速度、角度极为敏感。力量小了,声音出不来;力量大了,声音会‘炸’,音色不对,甚至可能损坏这些珍贵的乐器。”他进一步解释说,在工业上机器人追求的是“刚性”和“精度”,比如把一个零件焊接的误差控制在0.1毫米内。但在舞台上,追求的是“柔性”,机器人需要有类似人类“手感”的力反馈控制。它要能感知到接触的瞬间,并精准输出乐谱上要求的“轻、重、缓、急”。这在机器人控制算法和伺服电机技术上是很大的挑战。
第二个难点在于“时”的精准协同。专家说,这不是一个机器人在“独奏”,我们看到的是一个“机器人乐团”。它们必须和现场真人演员、总体的背景音乐保持毫秒级的精准同步。几台机器人,每一台的动作指令、通信和执行都不能有任何延迟或错误。任何一台机器人“抢拍”或“慢拍”,在开幕式这种级别的演出中会是明显的失误。要实现这种大规模、高精度的“集群智能”协同,对背后的中央控制系统、网络通信的低延迟和稳定性要求都是顶尖的。
第三个难点在于“准”的环境适应。大型体育场的开幕式,现场环境远比实验室复杂。光照、温湿度、可能的电磁干扰,都和实验室里不一样。机器人需要精准定位那些不规则、非标准的青铜乐器敲击点,不能有偏差。这通常需要依赖高精度的视觉识别系统,或者在前期进行极其复杂的物理空间标定。在如此宏大的场面下,确保每一台机器人在长时间表演中都稳定、零失误,这本身就是对系统工程和集成能力的巨大考验。专家总结说,表演不是为了炫技,它实际上是“人工智能+高端制造”的一次集中展示。“它展示了我们的机器人技术,正在从单纯追求‘刚性’的生产,向着需要‘柔性’和‘智能’的更高级阶段去发展。”
演奏乐器能力有哪些应用场景
据报道,全运会开幕式上负责演出的3台机器人是国产机器人公司优必选的最新Walker S2人形机器人。该机器人公司的相关负责人告诉《环球时报》记者,这3台机器人搭载的是该公司的最新算法,“我们自主研发的手眼标定、运动学标定、末端负载辨识以及全身力位混合控制等关键技术,结合了高精度视觉识别算法与Walker S2的高动态运动跟踪能力,使得机器人在高频、高动态敲击的情况下,依然能够稳定站立,实现毫米级的精准敲击、毫秒级的动作同步响应,并以稳定的敲击力度(不同音调的敲击力度误差不超过10%),共同奏响了开幕式文体表演的序幕。”
上述机器人专家还表示,多数演示(包括全运会开幕式上的表演)是在高度结构化、程序化的环境中进行的“成果展示”。而真正的泛化智能和自主应变,才是全行业正在攻坚的“无人区”。
不过,专家解释说,这绝不意味着“编辑型”能力“单纯就是为了表演”,这种“有限的智能”或“编辑型”能力,是人形机器人商业化落地的第一块、也是最重要的一块基石。机器人在全运会开幕式的表演,更多的是在展示其硬件的稳定性和控制的精准性,这是未来进入工厂应用的“准入证”。
专家认为,我们正处于自动向自主演进的关键转折点,而我们现在看到的类似多数“编辑型”能力的演示,不是单纯表演,“它是在为即将到来的工业和商业规模化落地做扎实的铺垫。”具身智能领域,最核心也是最难的就是让机器人变得更聪明。