暑假工作简述

暑假即将结束，简单介绍一下暑假接触的项目以及相关的方向。

1. Deception

暑期深入了关于LLM Safety的研究，深入研究Deception欺骗这个概念。总结关于Deception的定义和分类。

参考论文依旧处于Pre-Print状态，无链接可放。

AI给出一个信号Y（Answer）给User，User因为这个信号Y产生了一个belief X，因为这个belief X做出了一个行为A。然后在这个流程中满足了以下条件的过程称为欺骗。

https://arxiv.org/abs/2505.18807

目前正在尝试探索Reasoning Model在产生欺骗现象的时候其CoT中会不会产生同一或相似的文字模板，如能发现类似模板，将使用一些可解释性方法做Attention切片获取Attention分布，并尝试做Deception抑制。

简单跑了一下吉嘉铭博士组的DeceptionBench，得出一点点规律，但是需要更多的实验证明。

https://huggingface.co/datasets/PKU-Alignment/DeceptionBench

暑期在UCAS的科研实习在第三研究室数组共享组，研究Inference过程的安全。

虽然你说Inference的安全肯定是LLM Safety的一部分，但是总有一种说不上来的感觉，感觉这个Part就很像是研究网安的人研究LLM Safety研究的方向。

因为他也不在Kun Wang的Ful Stack LLM Safety综述里面，但是你要说他完全不是LLM Safety的一部分，感觉也不对。

https://arxiv.org/abs/2504.15585

研究内容不方便多说，感谢Mentor刘东博士的关照，给我布置的任务大多涉及研究生基本功，给了我学习模型原理了解模型代码的机会。

暑期在CBL的论文组中参与一些实验工作和调研工作，研究Reasoning VLLM的幻觉抑制工作。

研究内容不方便多说，不然CBL会过来打死我。

在准备Nature Machine Intelligence的内容，帮LHL学长做调研工作，我现在是Cognitive psychology领域大神。

NMI要求论文需要跨学科融合，因此选择用认知心理学来套LLM内生安全的几个点：Deception，Hallucination，Refusal Failure。

我主要负责Cognitive psychology里面的部分，现在我对Cognitive psychology有一些些的了解，包括EF（执行功能），CC（认知控制）。但是你要是问我具体是什么意思，我也不知道。

这个暑假兼任的工作有点多，非常非常的忙碌。什么地方都了解了一些，对于科研的流程、方向、领域的前沿，都有了一些新的体验。感谢各位学长和老师给的机会和帮助。开学之后继续学习。