大规模人工智能(AI)模型在计算机视觉中取得了显著性能,但需要大量的计算资源,限制了它们在边缘设备上的部署。光学神经网络(ONN)承诺通过利用光的固有并行性来减少延迟和能耗。然而,当前的光学神经网络难以扩展,并且局限于简单任务,这是因为使用物理系统复制数字模型的精确代数运算存在挑战。
2026年6月17日,香港中文大学黄超然团队在Nature在线发表题为Optical metasurfaces for general vision processing on the edge的研究论文。该研究提出了一种全新思路:不再用光学系统去“模仿”数字神经网络的具体计算,而是将计算机视觉的三大核心原理——基于相似性的识别、注意力引导的感知、细节与上下文的融合——直接嵌入到光学超表面的物理设计中。
视觉基础模型是用于执行通用视觉任务的大规模AI模型。它们学习可以适应广泛下游应用(如检测、分割、三维重建和多模态理解)的通用表示。这些模型已取得了令人鼓舞的性能,甚至超越了人类专家。然而,它们通常包含10⁷到10¹⁰个参数,需要大量的计算资源。因此,视觉基础模型主要部署在云服务器上,导致大量的运行成本和高能耗。
这种对资源密集型基础设施的严重依赖对现实世界应用构成了挑战,特别是在对延迟和能量敏感的应用中,如自动驾驶、机器人和虚拟现实/增强现实。这些应用需要极低的延迟,因此必须在边缘设备上运行。然而,传统的数字设备面临严格的计算和能量限制,使得边缘部署不切实际。
机理模式图(图源自Nature)
该研究引入了一种新范式,将核心计算机视觉原理(包括基于相似性的识别、注意力引导的感知和细节-上下文融合)直接嵌入到大规模光学超表面中。研究人员通过将光学物理与这些计算机视觉基本原理统一起来,开发了一种光子-电子引擎,克服了可扩展性和通用性障碍,实现了边缘端高精度、通用计算机视觉。
所得到的系统将具有4100万参数的光学超表面前端与协同设计的超高效87000参数数字后端相结合,在目标检测、分割、三维重建和视频理解方面优于许多具有数千万参数的数字模型。构建了一个可部署的原型,并展示了在自然场景中的实时边缘视觉处理。
这项工作代表了在复杂自然环境中实现通用视觉任务的实用光学计算的一条路径,为低能耗、低延迟、实时的设备端视觉智能开辟了新范式。
参考消息:https://www.nature.com/articles/s41586-026-10635-z