苹果介绍 Ferret-UI 多模态大语言模型:更充分理解

2024-04-10 08:13:17

  苹果公司近日发布研究论文,

  以 ChatGPT 为代表的 AI 大语言模型,其训练材料通常是文本内容。为了能够让 AI 模型能够理解图像、和音频等非文本内容,多模态大语言模型因此孕育而生。

  只是现阶段 MLLMs 还无法有效理解移动应用程序,这主要有以下几个原因:

  1. 手机屏幕的宽高比,和大多数训练图像使用的屏幕宽高比不同。

  2. MLLMs 需要识别出图标和按钮,但它们相对来说都比较小。

  因此苹果构想了名为 Ferret-UI 的 MLLM 系统解决了这些问题:

  与自然图像相比,用户界面屏幕的长宽比通常更长,包含的关注对象也更小,因此我们在 Ferret 的基础上加入了 任意分辨率,以放大细节并利用增强的

  附上参考地址

下一篇:微软升级网页版 Visio,符合条件用户可使用思维
上一篇:联想 ThinkPad T14p 2024 款笔记本 4 月 18 日发布
返回顶部小火箭