当前位置:首页 / 数码 / 正文

谷歌发布Gemini 3.5 Live Translate:支持70+语言实时互译,延迟仅数秒

来源:互联网

谷歌近日正式发布新一代实时语音互译模型Gemini 3.5 Live Translate,标志着机器翻译从”轮流式”向”流式实时”的关键跨越。该模型可自动识别并翻译70多种语言,同步生成自然流畅的语音输出,并保留说话者的语调、语速和音高特征。

流式实时架构:翻译只比原声慢几秒

与传统的轮流式翻译系统不同——后者需要等待说话者完整表达后才开始翻译——Gemini 3.5 Live Translate采用流式同步处理架构,在说话者持续表达的过程中即开始连续生成翻译语音。系统在”等待更多上下文以提升翻译质量”和”即时翻译以跟上说话者节奏”之间实现动态平衡,翻译音频始终只比说话者慢数秒,避免了传统系统常见的尴尬停顿。

此外,模型还具备出色的抗噪能力,可适应嘈杂、复杂和不可预测的环境。在语音流式传输过程中,模型同步处理内容并保持翻译流畅,显著提升了真实场景中的可用性。

三端同步落地:从开发者到普通用户

该模型已在多个谷歌产品中开放使用。开发者可通过Gemini Live API和Google AI Studio使用公开预览版;企业用户可在Google Meet中体验私有预览版;普通用户则可在Android和iOS版谷歌翻译App中陆续获得实时翻译功能。Android用户还将享有专属的”聆听模式”——可将手机像接电话一样贴近耳边,直接通过听筒收听翻译音频,在无耳机且不希望旁人听见的场景下尤为实用。

应用场景广泛:从通话、会议到直播

Gemini 3.5 Live Translate的适用场景覆盖多语言通话、国际会议、在线课程、直播和广播等领域。普通用户只需连接任意耳机,即可在70多种语言之间获得流畅的实时翻译体验。该模型的推出不仅提升了谷歌翻译的产品竞争力,也为跨语言沟通的实时性树立了新的技术标杆,有望在全球化交流日益频繁的背景下,显著降低语言障碍带来的沟通成本。

声明:

1、凡本网注明“来源:XXX(非科极网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,丰富网络文化,此类稿件并不代表本网赞同其观点和对其真实性负责。

2、如因作品内容、版权和其他问题需要与本网联系的,请在该事由发生之日起30日内进行。