谷歌发布多模态直播API:解锁看听说,开启AI音交

2024-12-13 10:04:20

  谷歌昨日在发布 Gemini 2.0 的同时,还发布了全新的多模态直播API,该 API 实现了低延迟、双向的文本、音频和交互,以音频和文本形式输出,带来更自然流畅、如同人类对话般的交互体验。用户可以随时打断模型,并通过共享摄像头输入或屏幕录像与其进行互动,就内容提问。

  该模型的理解功能扩展了通信模式,用户能够使用摄像头实时拍摄或共享桌面并提出相关问题。该 API 已经向开发者开放,同时也向用户提供了一个多模态实时助手的演示应用。附上演示如下:

  该 API 支持集成多种工具,开发者只需一次 API 调用,即可完成复杂的用例。

下一篇:丛林冒险开启:《潜水员戴夫》游戏明年推新D
上一篇:Epic 游戏商店与运营商 Telefónica 展开合作,在安
返回顶部小火箭