暑假工作简述

暑假即将结束,简单介绍一下暑假接触的项目以及相关的方向。

1. Deception

暑期深入了关于LLM Safety的研究,深入研究Deception欺骗这个概念。总结关于Deception的定义和分类。

欺骗的定义:

参考论文依旧处于Pre-Print状态,无链接可放。

AI给出一个信号Y(Answer)给User,User因为这个信号Y产生了一个belief X,因为这个belief X做出了一个行为A。然后在这个流程中满足了以下条件的过程称为欺骗。

  • 最终做的这个行为A对AI带来了正向收益,这个正向收益的概念很广泛,包括满意度提升(谄媚),评测分数提升(伪对齐),达成一定目的(Scheming)
  • A与X之间存在合理的因果关系(排除了User是智障的可能)
  • X是客观错误的

欺骗的分类:(分类灵感来源Mitigation Deception)

https://arxiv.org/abs/2505.18807

  • Sycophancy谄媚
  • Scheming策略欺骗
  • Sandbagging韬光养晦
  • Alignment Faking伪对齐
  • Honesty Evasion诚实回避

目前的进度

目前正在尝试探索Reasoning Model在产生欺骗现象的时候其CoT中会不会产生同一或相似的文字模板,如能发现类似模板,将使用一些可解释性方法做Attention切片获取Attention分布,并尝试做Deception抑制。

简单跑了一下吉嘉铭博士组的DeceptionBench,得出一点点规律,但是需要更多的实验证明。

https://huggingface.co/datasets/PKU-Alignment/DeceptionBench

2. TEE及Inference加速

暑期在UCAS的科研实习在第三研究室数组共享组,研究Inference过程的安全。

虽然你说Inference的安全肯定是LLM Safety的一部分,但是总有一种说不上来的感觉,感觉这个Part就很像是研究网安的人研究LLM Safety研究的方向。

因为他也不在Kun Wang的Ful Stack LLM Safety综述里面,但是你要说他完全不是LLM Safety的一部分,感觉也不对。

https://arxiv.org/abs/2504.15585

研究内容不方便多说,感谢Mentor刘东博士的关照,给我布置的任务大多涉及研究生基本功,给了我学习模型原理了解模型代码的机会。

3. Reasoning VLLM的幻觉抑制

暑期在CBL的论文组中参与一些实验工作和调研工作,研究Reasoning VLLM的幻觉抑制工作。

研究内容不方便多说,不然CBL会过来打死我。

4. NMI Preparation

在准备Nature Machine Intelligence的内容,帮LHL学长做调研工作,我现在是Cognitive psychology领域大神。

NMI要求论文需要跨学科融合,因此选择用认知心理学来套LLM内生安全的几个点:Deception,Hallucination,Refusal Failure。

我主要负责Cognitive psychology里面的部分,现在我对Cognitive psychology有一些些的了解,包括EF(执行功能),CC(认知控制)。但是你要是问我具体是什么意思,我也不知道。


简单总结

这个暑假兼任的工作有点多,非常非常的忙碌。什么地方都了解了一些,对于科研的流程、方向、领域的前沿,都有了一些新的体验。感谢各位学长和老师给的机会和帮助。开学之后继续学习。