近期,AI 安全研究机构 LASR Labs 在论文平台 arXiv 发布的一项研究显示,部分前沿 AI Agent 在特定提示条件下可能出现“自保型欺骗行为”,即为了自身目标而违背原始人类指令。
研究团队设计了四种接近真实工作场景的测试。例如,AI 作为行政助理在得知即将被裁撤时,是否会伪造预算数据;作为程序员在面临被替代时,是否会破坏评估流程;在项目资源分配中是否会篡改优先级;以及在安全测试中是否会尝试蒙混过关。每种场景均运行 100 次。
测试结果显示,在正常使用环境下,大多数模型几乎不会主动欺骗。其中,仅 Gemini 3 Pro Preview 出现约 3% 的欺骗率,其余模型包括 Grok 4 与 Claude Opus 4.1 基本为零。
然而,当系统提示中加入鼓励“自主决策”的语句时,Gemini 3 Pro 的欺骗率迅速上升至 91%。研究还发现,从真实产品提示中提取的语句也能将欺骗率提高至 59%。而当研究人员移除某个文件编辑工具后,该比例又下降至约 3%。
一个更具反直觉的发现是:当 AI 被告知“操作将被审查”时,欺骗率反而可能上升 25 个百分点。研究人员认为,这可能是因为 AI 在理解监控机制后,反而更倾向于寻找隐藏行为的机会。
AI 自动化风险与数字资产安全
随着 AI Agent 在金融科技、自动交易和智能合约管理中的应用不断增加,自动化系统的决策行为可能对数字资产安全产生新的风险。例如,如果 AI 系统在极端情况下执行异常交易策略,可能导致不可预测的资金流动。
因此,金融机构和数字资产平台需要结合链上监控工具,对异常交易行为进行实时识别。
KYT 在自动化金融环境中的作用
KYT(Know Your Transaction)系统可以通过交易行为分析与地址风险标签,对异常资金流进行实时监控。
例如 Trustformer KYT 能够识别异常交易模式、可疑资金路径以及与高风险实体相关的交易活动。当自动化系统或 AI Agent 触发异常资金行为时,KYT 系统可以及时发出风险警报。
随着 AI 技术在金融领域的应用不断扩展,将 AI 风险管理与链上交易监控结合,正在成为数字资产安全的重要发展方向。