Title: How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference
Authors: Toru Lin, Shuying Deng, Zhao-Heng Yin, Pieter Abbeel, Jitendra Malik
arXiv: https://arxiv.org/abs/2603.03280

Figure: ./out/telegram-cards/2026-03-04/2603.03280.png(由 arXiv source 图转出)

Problem framing

这篇论文聚焦“隐式成功标准”的精细操作:如削皮、手术、工艺加工,成功不是二值而是连续主观质量。传统 reward engineering 很难覆盖这类细粒度偏好,导致策略学到“能做”但难做到“做得好”。

Core method

作者提出基于人类偏好信号的学习框架,把操作质量评估从硬编码指标转为偏好驱动对齐。核心不是仅优化任务完成率,而是优化“完成质量曲线”,即让策略在接触丰富动力学下兼顾安全、效率与人类主观满意度。

Key equations and mechanisms

可抽象为偏好对齐目标:

其中 并非固定解析式,而由人类偏好比较/打分学习得到。关键机制是把“隐式质量标准”转成可训练监督,从而让策略在 fine-grained manipulation 中获得更稳定的优化方向。

Experiment reading guide

优先看:

  1. 与传统 reward 设计方法在精细任务质量上的对比;
  2. 偏好标注量与性能提升关系(样本效率);
  3. 不同操作者偏好差异下的鲁棒性。

Limitations

偏好学习可能引入主观偏差与标注噪声;跨人群迁移时可能出现偏好不一致问题。若在线更新不受约束,也可能牺牲安全边界换取局部质量。

Future work

可结合不确定性估计做“偏好置信度加权”,并接入层级策略将粗粒度任务分解与细粒度偏好优化联合训练。

Replication angle

建议先复现偏好建模模块,再逐步接入真实机器人。记录不同偏好采样策略(成对比较/序排序)对训练稳定性与最终质量的影响。

Graph: Paper Node 2603.03280