Title: Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction
Authors: Ricardo Vilela De Godoy, Gustavo M. Ferreira, Fernanda Araujo, Rodrigo M. C. de Souza, Raquel Frizera Vassallo
arXiv: https://arxiv.org/abs/2602.23312

Problem framing

这篇工作聚焦人机协作里一个很“落地但长期被忽视”的子问题:在 leader-follower 交互中,机器人要实时判别“当前该跟随还是主导”,而边缘侧算力又不足以部署大模型。作者把问题转化为小语言模型(SLM)在对话序列上的角色分类任务,核心矛盾是低时延部署交互上下文复杂度之间的冲突。

Core method

方法主线是一个系统性 benchmark,而非单一新模型:

  1. 构建面向 leader-follower 场景的数据集(基于公开数据并加入合成样本,强化交互动态);
  2. 比较两类适配路线:prompt engineering vs fine-tuning;
  3. 在 zero-shot 与 one-shot 两种交互模式下评估,并与未训练 baseline 对照。

关键结论是:对 Qwen2.5-0.5B,zero-shot + fine-tuning在精度与时延上都最稳;而 one-shot 模式因上下文拉长导致性能回落,揭示了小模型容量与对话记忆长度的硬约束。

Key equations and mechanisms

可将其抽象为条件分类:给定历史交互上下文 与当前观测/话语 ,预测角色标签

训练目标是交叉熵最小化:

实验显示:当 one-shot 让 增长时,小模型有效容量下降,表现为分类边界更易受长上下文噪声扰动。

Experiment reading guide

建议重点看三组结果:

  1. 精度-时延帕累托:是否真正满足边缘机器人在线决策;
  2. zero-shot 与 one-shot 对比:验证“上下文越长不一定越好”;
  3. prompt 与微调差异:确认在资源受限场景下微调收益是否稳定可复现。

Limitations

  • 任务定义偏角色判别,尚未直接闭环到低层控制执行;
  • 目前主要验证单一小模型规模,跨模型/跨语言泛化仍需补充;
  • 数据集中合成样本比例会影响结论外推到真实 HRI 现场的可信度。

Future work

可沿两条线推进:

  • 结构侧:做上下文压缩或记忆检索,把 one-shot 的长上下文改为稀疏关键记忆;
  • 系统侧:将角色判别输出显式接入策略切换器(planner/policy arbitration),评估端到端任务成功率增益。

Replication angle

复现时建议固定同一 SLM 主干,逐步增加上下文长度窗口,记录准确率、ECE 校准误差与单样本推理时延,建立“上下文长度-可靠性-时延”三维曲线,便于后续机器人系统选型。
图链接:https://arxiv.org/html/2602.23312v1/images/new_pipeline.png

Graph: Paper Node 2602.23312