OPPO AI 中心产品总监张峻：多模态和个性化是将要

2024-10-21 11:38:04

　　ColorOS 15 进行了从底层到用户界面的全面优化，推出了流畅双引擎 —— 极光引擎和潮汐引擎。极光引擎引入了行业内首个并行绘制框架，使得动画效果更加连贯流畅。潮汐引擎则通过芯片级别的性能优化，实现了流畅性和续航能力的双重提升。

　　在此次 OPPO 开发者大会上，OPPO 还提出了 AIOS发展的三个阶段：从第一阶段的系统应用 AI 化，到第二阶段的系统 AI 化，再到第三阶段的 AI 即系统。

　　基于上述理念，ColorOS 15 引入了高效的系统级 AI，包括全新的“超级小布助手”，它支持一键问屏、一拍即问、一圈即搜、问答和文档问答等多种交互方式。此外，系统级 AI 的感知和调度能力，ColorOS 15实现了自有应用与三方应用间的生态握手，包括英语陪练、求职面试、旅游攻略、美食点评等。

　　谈及这个话题，张峻表示，OS 是 AI 手机的重要组成部分，AIOS有三个阶段：应用 AI 化、系统 AI 化、AI 即系统。AI 已经不再是单点功能，而是深度整合的系统级体验。例如我们推出的“一键问屏”功能，它需要多模态交互的融合 —— 不仅要“看”，还要“听”，然后根据用户的语音和OS 对于 AI 手机的硬件也会有一定的要求，因为这样的多模态交互，需要更多的感知能力，以及对端侧计算能力提出了新的硬件需求。所以硬件上，无论是传感器的布局还是芯片平台，都会进行相应的升级，以支持系统级的 AI 功能。

　　今年来，AI 重构系统成为了手机厂商的宣传重点，但针对这个问题，张峻表示，OPPO 通过 SenseNow 框架实现了“边看边说”的功能。表面上看这只是一个细微的体验提升，但背后的技术路径完全不同。传统 AI 交互通常是单一的 —— 要么“看”，要么“说”，但我们的一键问屏功能可以做到边看边说，实现同步多模态的交互。这意味着用户在浏览内容时，可以立即询问或发出指令，AI 可以实时响应，而不再需要用户在不同模态之间来回切换操作。

　　实现这一点的背后有着复杂的分流决策和信息融合理解技术。系统需要同时处理多种输入源，如在此次开发者大会上，OPPO 推出了全新的 SenseNow 智慧框架，实现多模态直觉交互体验。该框架集成了自主研发的语音多级唤醒和个性化识别技术，使语音唤醒和识别准确率达到 97% 以上。多模态理解技术让 AI 具备看的能力，支持 1000 多种主体识别，并实现图文混合检索。生成式语音合成框架让 AI 能够模拟真人语气和节奏，支持超过 20 种个性化音色。SenseNow 智慧框架还融合不同类型的信息源，理解复杂意图，完成跨应用操作。

　　陈希补充表示，OPPO 提出了一个 AI 理念，叫做“直觉、整合、专属、安全”四个核心要素。其中，“直觉”和“整合”是今天我们特别强调的。直觉是指系统越来越像人类，能够具备类似人的感知能力，让交互变得自然和拟人化。整合是指，将各个模态的信息和交互整合到一起，而不是简单地一个模态完成后切换到另一个模态。例如在今天的发布会上展示的“一键问屏”，这功能看似用户只是说了一句话，但背后 AI 系统需要进行很多隐含的前提理解和推理，以完成用户的意图。

　　这其中的整合就是我们强调的核心难点之一。机器不像人类那样自然而然地理解场景和意图，它需要经过大量的条件界定和判断。而我们做了许多投入，使得这些多模态交互和整合能够最终展现在用户面前，这也是 AI 重构系统的一个重要部分。