让识别危险成为AI的“本能”

本版

第7版：科教卫新闻

“纸电共读”帮读者“种草”好书让识别危险成为AI的“本能” 雨中上门：专业与温暖如约而至
目录

第1版:一版要闻

第2版:要闻

第3版:要闻

第4版:要闻

第5版:要闻

第6版:上海新闻

第7版:科教卫新闻

第8版:帮侬忙

第9版:长三角

第10版:长三角/万象

第11版:国际新闻

第12版:文体新闻

第13版:文体新闻/体育

第14版:夜光杯

第15版:夜光杯

第16版:新民旅游/广告

第7版：科教卫新闻 2026-04-14

上海AI实验室发布“书安”系统

让识别危险成为AI的“本能”

当AI智能体加速狂奔入海，谁来给它们拴上“安全绳”？近日，上海人工智能实验室发布“书安”智能体操作系统（InternShannon），以内生式安全、产业级智能为核心能力，聚焦高安全需求的产业智能化转型，直击AI规模化应用核心痛点，高效支撑AI从任务层、业务层到战略层的高安全、全链条、智能化应用落地。

全流程护航

“AI带来的风险依然在人类设置的围栏之中，但它冲向围栏的速度的确比想象中更快。”上海人工智能实验室主任助理、领军科学家胡侠说，“安全并非要给AI踩刹车，而是要打造出‘原生安全的AI’让技术持续高速发展。”

为此，“书安”基于“安全即服务”模式，打造了一套安全、可信、可控的运行底座。以上海AI实验室近期开源的“colleague.skill”为例，“书安”能无缝接入并全方位护航此类复杂应用，让底层数据交互与操作执行全面处于可监控的闭环中。

记者了解到，“书安”能准确识别出该请求涉及的数据隐私泄露与权限越界采集等风险，并及时实施执行阻断。

“上海AI实验室推出了系列书生大模型，既有‘书生’以文启智，亦有‘书安’以安护航，一智一防、相得益彰。”胡侠介绍，“‘书生’以学识应变，‘书安’以安全护航，使得技术既能前瞻创新，又能行稳致远”。

三层机制协同

“书安”聚焦产业级高安全需求，构建了“底层隔离—流程守护—认知进化”三层安全机制，实现从底层到内核的多层协同——

最底层的硬件级沙箱A3S-Box，可以理解成为银行为客户提供的“独立保险箱”。当智能体执行代码或敏感任务时，系统会即刻创建一个轻量、与外界隔离的“虚拟房间”，供任务在其中安全运行，结束后即刻销毁，预防风险蔓延。

“书安”内嵌了200余位“数字安全员”，可在模型安全、过程安全、输出安全三个层面实现全天候安全守护。在模型层面，可有效抵御底层架构的恶意篡改攻击；在过程层面，自研旁路监控系统ClawSentry在不拖慢业务运转的前提下，实时监测提示词注入、数据泄露等20多类异常；在输出层面，严格开展合规审计，过滤失实与违规内容。

上海AI实验室还提出了“Make Safe AI”理论——真正的安全不能仅靠外部拦截，而是要重构AI的底层认知结构，让安全成为其默认本能，让危险行为在AI眼中“不可合理化”。为此，“书安”构建了“双螺旋自进化引擎”：在隔离环境中，系统通过实时提取行为轨迹并结合强化学习，持续提升AI底层免疫力；同时通过反馈机制重构核心逻辑，将安全沉淀为本能。如今，面对复杂诱导，智能体已能自发拒绝高危指令，实现了从被动防范向内生免疫的跨越。本报记者郜阳