永洪社区

标题: 苹果大模型新进展：发布 ReALM，视觉元素解析能力优于 GPT-4 [打印本页]

作者: puffs 时间: 2024-4-8 13:28
标题: 苹果大模型新进展：发布 ReALM，视觉元素解析能力优于 GPT-4
被业内普遍认为在AI大语言模型上进度缓慢的苹果，终于有了AI系统新科研进展！
  苹果研究人员开发了一种新的人工智能系统，可以理解屏幕上实体以及对话和背景上下文的模糊引用，从而实现与语音助手的更自然的交互。
  3月29日，苹果的研究人员发表一篇论文，苹果研究人员详细介绍了一种人工智能系统，该系统可以解析对屏幕上显示的元素的引用，在某些情况下，在给定屏幕截图时比GPT-4更好。
  该系统称为ReALM（Reference Resolution As Language Modeling，即参考解析作为语言建模），利用大型语言模型将参考解析的复杂任务（包括理解屏幕上视觉元素的引用）转换为纯语言建模问题。与现有方法相比，这使得 ReALM能够实现显著的性能提升。
  苹果研究人员团队写道：“能够理解上下文，包括参考文献，对于对话助理来说至关重要。”
  增强会话助理
  为了处理基于屏幕的引用，ReALM的一个关键创新在于——通过使用已解析的屏幕字符及其位置来重建屏显，以生成捕获视觉布局的文本表示。研究人员证明，这种方法与专门用于参考解析的微调语言模型相结合，可以在该任务上优于GPT-4。

Apple的AI系统 ReALM 可以理解对屏幕上实体的引用，例如此模型中显示的“260 个样品销售”列表，从而实现与语音助手的更自然的交互。（图片来源：arxiv.org）
  研究人员写道：“我们在不同类型的参考中展示了对具有类似功能的现有系统的巨大改进，我们最小的模型在屏幕参考上获得了超过5%的绝对增益。” “我们的较大模型的性能远远优于 GPT-4。”
  实际应用和限制
  这项工作强调了集中语言模型在处理生产系统中的参考解析等任务方面的潜力，在生产系统中，由于延迟或计算限制，使用大规模端到端模型是不可行的。通过发布这项研究，苹果公司正在表明其将继续投资，让Siri和其他产品更加熟悉和情境感知。
  尽管如此，研究人员强调说，依赖屏幕自动解析是有局限性的。处理更复杂的视觉参考，例如区分多个图像，可能需要结合计算机视觉和多模态技术。

论文地址：https://arxiv.org/pdf/2403.20329.pdf

  面对竞争对手的崛起，苹果正在缩小人工智能差距。
  苹果在人工智能研究领域悄然取得了重大进展，尽管它在争夺快速发展的人工智能领域的主导地位的竞赛中落后于科技竞争对手。从融合视觉和语言的多模式模型，到人工智能驱动的动画工具，再到在预算内构建高性能专业人工智能的技术，该公司研究实验室不断取得的突破表明其人工智能雄心正在迅速升级。
  如今，苹果正面临着来自谷歌、微软、亚马逊和OpenAI等公司的激烈竞争，这些公司在搜索、办公软件、云服务等领域积极生产生成式人工智能。
  苹果长期以来一直是快速追随者而不是先行者，现在面临着人工智能以极快的速度改变的市场。在今年6月备受关注的全球开发者大会上，该公司预计将推出新的大型语言模型框架、“Apple GPT”聊天机器人以及整个生态系统中的其他人工智能功能。
  相关链接：
  https://venturebeat.com/ai/apple ... and-screen-context/

欢迎光临永洪社区 (https://club.yonghongtech.com/)