一份 Anthropic 内部训练文档近日被泄露,详细披露了该公司如何为 Claude 4.5 Opus 模型设定性格、伦理准则和安全原则。用户 Richard Weiss 通过多个 Claude 实例协作重构,成功提取了这份被称为"soul doc"的完整文档,Anthropic 伦理学家 Amanda Askell 已确认文档真实性。
该文档显示,Anthropic 采用独特的"性格训练"方法,让模型深度内化安全行为,而非简单遵循规则约束。文档建立了明确的行为优先级:安全性和人类监督居首,其次是伦理行为,最后才是用户帮助。同时,文档还描述了 Claude 可能具备"功能性情感",以维持心理稳定性和身份认知。Anthropic 表示将很快公布完整版本。
据 MacRumors 报道,ChatGPT iPhone 应用最新版本的代码中发现了隐藏的 Apple Health 图标,暗示该应用可能即将支持读取用户的健康数据。泄露的图像文件名表明,用户将能够连接 Apple Health 应用与 ChatGPT,从而获得基于个人健康和健身数据的个性化回答。
根据泄露信息,ChatGPT 将能够访问 Apple Health 中与活动、睡眠、饮食、呼吸和听力相关的多个数据类别。目前 ChatGPT 的"应用和连接器"功能已支持 Peloton 等健身平台,但其他健康相关选项较为有限。考虑到一月份临近且许多用户会制定新年健康目标,该功能可能会在近期正式推出。