High 2603.03280 How to Peel with a Knife Aligning Fine-Grained Manipulation with Human Preference

Title: How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference
Authors: Toru Lin, Shuying Deng, Zhao-Heng Yin, Pieter Abbeel, Jitendra Malik
arXiv: https://arxiv.org/abs/2603.03280

Figure: ./out/telegram-cards/2026-03-04/2603.03280.png（由 arXiv source 图转出）

Problem framing

这篇论文聚焦“隐式成功标准”的精细操作：如削皮、手术、工艺加工，成功不是二值而是连续主观质量。传统 reward engineering 很难覆盖这类细粒度偏好，导致策略学到“能做”但难做到“做得好”。

Core method

作者提出基于人类偏好信号的学习框架，把操作质量评估从硬编码指标转为偏好驱动对齐。核心不是仅优化任务完成率，而是优化“完成质量曲线”，即让策略在接触丰富动力学下兼顾安全、效率与人类主观满意度。

Key equations and mechanisms

可抽象为偏好对齐目标：

π max E [R_{t a s k}] + λ E [R_{p re f}]

其中 $R_{p re f}$ 并非固定解析式，而由人类偏好比较/打分学习得到。关键机制是把“隐式质量标准”转成可训练监督，从而让策略在 fine-grained manipulation 中获得更稳定的优化方向。

Experiment reading guide

优先看：

与传统 reward 设计方法在精细任务质量上的对比；
偏好标注量与性能提升关系（样本效率）；
不同操作者偏好差异下的鲁棒性。

Limitations

偏好学习可能引入主观偏差与标注噪声；跨人群迁移时可能出现偏好不一致问题。若在线更新不受约束，也可能牺牲安全边界换取局部质量。

Future work

可结合不确定性估计做“偏好置信度加权”，并接入层级策略将粗粒度任务分解与细粒度偏好优化联合训练。

Replication angle

建议先复现偏好建模模块，再逐步接入真实机器人。记录不同偏好采样策略（成对比较/序排序）对训练稳定性与最终质量的影响。

Graph: Paper Node 2603.03280