IRIS Learning-Driven Task-Specific Cinema Robot Arm for Visuomotor Motion Control

Title: IRIS: Learning-Driven Task-Specific Cinema Robot Arm for Visuomotor Motion Control
Authors: Qilong Cheng, Matthew Mackay, Ali Bereyhi
arXiv: https://arxiv.org/abs/2602.17537

Problem framing

影视机位机器人存在“高成本工业平台 vs. 低门槛创作需求”的落差。IRIS 关注任务特化型低成本机械臂，目标是在人类示教下学习平滑、可复现的镜头轨迹。

Core method

硬件侧采用 3D 打印 6-DoF 机械臂；算法侧采用 ACT 风格 chunked visuomotor imitation，通过目标条件输入学习对象中心相机运动，而非手工几何编程。

Key equations and mechanisms

方法核心可抽象为 chunk-level 模仿目标：

θ min t \sum ∥ \overset{a}{^}_{t : t + K - 1}^{θ} (o_{t}, g) - a_{t : t + K - 1}^{d e m o} ∥_{2}^{2}

把长时程轨迹分块预测可降低逐帧噪声放大，并提升运动连贯性。

Experiment reading guide

先看成本/精度/负载三指标，再看不同摄影动作上的泛化结果，最后看失败案例（快速运动、遮挡）理解边界。

Limitations

方法更偏工程整合，理论机制深度有限；在复杂动态场景下，纯示教策略可能受分布外干扰显著。

Future work

可与语言条件镜头语义结合，演化为轻量 VLA 摄影代理；也可加入安全约束层避免近人机位风险。

Replication angle

建议先复现静态目标镜头，再逐步增加目标移动与遮挡扰动，评估 chunk 长度对平滑性和延迟的影响。

Figure

arXiv 页面无稳定直链图片；建议参考 PDF Fig.1/Fig.4：https://arxiv.org/pdf/2602.17537.pdf

Graph: Paper Node 2602.17537