Google 发布实时音频与语音模型 Gemini 3.1 Flash Live,并将其接入 Gemini Live、Search Live、Gemini Enterprise for Customer Experience,以及 Google AI Studio 中以预览版开放的 Gemini Live API。该模型支持 90 多种语言的实时多模态对话,强化了复杂指令遵循和外部工具调用能力,也提升了对音高、语速等声学细节的识别,以及嘈杂环境中的语音处理。
在 Android 和 iOS 的 Gemini Live 中,Gemini 3.1 Flash Live 带来更快响应、更少停顿,并把连续对话的上下文保持时间提升至此前的 2 倍。Google 也借此将 Search Live 扩展到 200 多个国家和地区,用户可通过音频和视频(Google Lens)用偏好的语言与搜索进行实时多模态对话。
Google | 9To5Google
🌸 在花频道|茶馆讨论|投稿通道
👍 216 ❤️ 8 🥰 8 😁 3 👎 1