当AI智能体加速狂奔入海,谁来给它们拴上“安全绳”?近日,上海人工智能实验室发布“书安”智能体操作系统(InternShannon),以内生式安全、产业级智能为核心能力,聚焦高安全需求的产业智能化转型,直击AI规模化应用核心痛点,高效支撑AI从任务层、业务层到战略层的高安全、全链条、智能化应用落地。
全流程护航
“AI带来的风险依然在人类设置的围栏之中,但它冲向围栏的速度的确比想象中更快。”上海人工智能实验室主任助理、领军科学家胡侠说,“安全并非要给AI踩刹车,而是要打造出‘原生安全的AI’让技术持续高速发展。”
为此,“书安”基于“安全即服务”模式,打造了一套安全、可信、可控的运行底座。以上海AI实验室近期开源的“colleague.skill”为例,“书安”能无缝接入并全方位护航此类复杂应用,让底层数据交互与操作执行全面处于可监控的闭环中。
记者了解到,“书安”能准确识别出该请求涉及的数据隐私泄露与权限越界采集等风险,并及时实施执行阻断。
“上海AI实验室推出了系列书生大模型,既有‘书生’以文启智,亦有‘书安’以安护航,一智一防、相得益彰。”胡侠介绍,“‘书生’以学识应变,‘书安’以安全护航,使得技术既能前瞻创新,又能行稳致远”。
三层机制协同
“书安”聚焦产业级高安全需求,构建了“底层隔离—流程守护—认知进化”三层安全机制,实现从底层到内核的多层协同——
最底层的硬件级沙箱A3S-Box,可以理解成为银行为客户提供的“独立保险箱”。当智能体执行代码或敏感任务时,系统会即刻创建一个轻量、与外界隔离的“虚拟房间”,供任务在其中安全运行,结束后即刻销毁,预防风险蔓延。
“书安”内嵌了200余位“数字安全员”,可在模型安全、过程安全、输出安全三个层面实现全天候安全守护。在模型层面,可有效抵御底层架构的恶意篡改攻击;在过程层面,自研旁路监控系统ClawSentry在不拖慢业务运转的前提下,实时监测提示词注入、数据泄露等20多类异常;在输出层面,严格开展合规审计,过滤失实与违规内容。
上海AI实验室还提出了“Make Safe AI”理论——真正的安全不能仅靠外部拦截,而是要重构AI的底层认知结构,让安全成为其默认本能,让危险行为在AI眼中“不可合理化”。为此,“书安”构建了“双螺旋自进化引擎”:在隔离环境中,系统通过实时提取行为轨迹并结合强化学习,持续提升AI底层免疫力;同时通过反馈机制重构核心逻辑,将安全沉淀为本能。如今,面对复杂诱导,智能体已能自发拒绝高危指令,实现了从被动防范向内生免疫的跨越。 本报记者 郜阳