Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction

Title: Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction
Authors: Ricardo Vilela De Godoy, Gustavo M. Ferreira, Fernanda Araujo, Rodrigo M. C. de Souza, Raquel Frizera Vassallo
arXiv: https://arxiv.org/abs/2602.23312

Problem framing

这篇工作聚焦人机协作里一个很“落地但长期被忽视”的子问题：在 leader-follower 交互中，机器人要实时判别“当前该跟随还是主导”，而边缘侧算力又不足以部署大模型。作者把问题转化为小语言模型（SLM）在对话序列上的角色分类任务，核心矛盾是低时延部署与交互上下文复杂度之间的冲突。

Core method

方法主线是一个系统性 benchmark，而非单一新模型：

构建面向 leader-follower 场景的数据集（基于公开数据并加入合成样本，强化交互动态）；
比较两类适配路线：prompt engineering vs fine-tuning；
在 zero-shot 与 one-shot 两种交互模式下评估，并与未训练 baseline 对照。

关键结论是：对 Qwen2.5-0.5B，zero-shot + fine-tuning在精度与时延上都最稳；而 one-shot 模式因上下文拉长导致性能回落，揭示了小模型容量与对话记忆长度的硬约束。

Key equations and mechanisms

可将其抽象为条件分类：给定历史交互上下文 $c_{t}$ 与当前观测/话语 $x_{t}$ ，预测角色标签 $y_{t} \in {leader, follower}$ ：

\overset{y}{^}_{t} = ar g y max p_{θ} (y ∣ x_{t}, c_{t}) .

训练目标是交叉熵最小化：

L (θ) = - t \sum lo g p_{θ} (y_{t} ∣ x_{t}, c_{t}) .

实验显示：当 one-shot 让 $∣ c_{t} ∣$ 增长时，小模型有效容量下降，表现为分类边界更易受长上下文噪声扰动。

Experiment reading guide

建议重点看三组结果：

精度-时延帕累托：是否真正满足边缘机器人在线决策；
zero-shot 与 one-shot 对比：验证“上下文越长不一定越好”；
prompt 与微调差异：确认在资源受限场景下微调收益是否稳定可复现。

Limitations

任务定义偏角色判别，尚未直接闭环到低层控制执行；
目前主要验证单一小模型规模，跨模型/跨语言泛化仍需补充；
数据集中合成样本比例会影响结论外推到真实 HRI 现场的可信度。

Future work

可沿两条线推进：

结构侧：做上下文压缩或记忆检索，把 one-shot 的长上下文改为稀疏关键记忆；
系统侧：将角色判别输出显式接入策略切换器（planner/policy arbitration），评估端到端任务成功率增益。

Replication angle

复现时建议固定同一 SLM 主干，逐步增加上下文长度窗口，记录准确率、ECE 校准误差与单样本推理时延，建立“上下文长度-可靠性-时延”三维曲线，便于后续机器人系统选型。
图链接：https://arxiv.org/html/2602.23312v1/images/new_pipeline.png

Graph: Paper Node 2602.23312