苹果研发AI代理助力盲人虚拟探索街景

苹果公司近期在其机器学习研究中心发布了一篇论文,介绍了一款名为 SceneScout 的人工智能代理。该技术旨在通过分析街景图像,为视障人士提供详细的环境描述,从而帮助他们在前往新的地点之前提前了解周围的地形。目前,许多视障人士在独立出行时常常感到犹豫,因为他们不清楚陌生环境中的具体情况。尽管已有一些工具如微软的 Soundscape 应用,能够提供现场环境的描述,但这些工具主要是在用户现场使用时进行的,而非提前准备。因此,视障人士在出行前所获得的地标和导航信息,往往无法满足他们对环境背景的需求。SceneScout 的诞生正是为了填补这一空白。SceneScout 是一款由多模态大型语言模型驱动的 AI 代理,具有两种主要功能模式。其中,“路线预览” 模式能够提供关于沿途可见元素的详细描述,比如提醒用户在转弯处注意路旁的树木等触觉元素。而 “虚拟探索” 模式则允许用户在街景图像中自由移动,获取更直观的环境信息。在用户研究中,参与者表示 SceneScout 极大提升了他们对环境的认知,因为这款 AI 能够获取他们无法通过现有工具获取的信息。该研究表明,SceneScout 的描述准确率高达72%,对于稳定的视觉元素,准确率更是高达95%。然而,参与者也提出了一些改进建议,比如提供个性化的描述,或者将描述的视角调整至更符合行人的位置。此外,参与者希望 SceneScout 能够实时提供街景描述,以便与他们的行走位置同步,甚至可以通过骨传导耳机在用户移动时提供视觉信息。利用设备中的陀螺仪和指南针,SceneScout 还可以指向环境中的细节,进一步提升使用体验。虽然这篇论文并不代表苹果一定会推出相关产品或服务,但它为我们提供了一个了解苹果在这项技术应用方面的视角。未来,结合 AI 和实时数据,苹果或许能够为视障人士创造出更多便利的工具。划重点:🌍 SceneScout 是一款 AI 代理,旨在为视障人士提供详细的环境描述,帮助他们提前了解陌生地点的地形。🔍 该技术具有 “路线预览” 和 “虚拟探索” 两种模式,可以根据街景图像提供环境信息。📈 用户研究表明,SceneScout 在描述的准确性上表现良好,并提出了一些个性化和实时反馈的改进建议。