研究中心(实验室)

智能媒体与视觉计算实验室

2025-02-25

一、实验室简介

智能媒体与视觉计算实验室旨在构建一个前沿科研、产业应用、人才培养紧密结合的创新平台,推动人工智能在媒体领域及相关交叉学科的深度应用与变革。实验室成立于2023年,主要研究视频、图像、图形、文字、音频等各类媒体信息的计算理论及智能应用,聚焦于人工智能最核心最根本的问题一可解释性和可泛化性,专注于解耦表达组合泛化等最基础科学问题,并在三维视觉、数字孪生、生成式 AI、自动驾驶、具身智能等最前沿应用领域开展落地应用。

二、研究方向

研究方向1:可解释人工智能理论基础

可解释人工智能(Explainable Artificial Intelligence, XAI)是实验室的重要研究分支,致力于揭示人工智能模型尤其是深度学习模型的决策过程与内在逻辑,提升其透明度、可理解和可信任度。实验室针对智能媒体与视觉计算应用中复杂的视觉识别、内容生成、数据分析等问题,开发适用于媒体领域的可解释性算法与工具。

研究方向2:三维视觉3D Vision

三维视觉研究旨在赋予机器对现实世界三维空间的深度感知与理解能力,为智能媒体应用提供立体、精细的空间信息。实验室具体聚焦三维场景中的自动驾驶前端感知与具身智能应用,强调将智能系统的认知过程与物理环境及实体/身体形态紧密关联,实现可解释可泛化的三维环境感知与智能体决策,聚焦数字孪生与虚拟仿真技术,推动具身智能体闭环训练与测试。目前与宁波本地吉利汽车、均胜电子/均普人形机器人研究院开展深入合作,多项技术成果已落地。

研究方向3:AIGC新媒体计算

实验室积极探索人工智能生成内容(Artificial Intelligence Generated Content, AIGC)在新媒体创作、分发、消费全链条中的应用潜力。研究内容涵盖图像/视频内容生成模型:研发针对文本、图像、视频、音频等多模态内容的生成式深度学习模型,如基于Diffusion + Scene Graph的图像视频生成器、AI for Science材料合成与发现等,实现高保真、个性化、风格可控的内容创作与科学研究;跨模态转换与融合:研究跨模态理解和生成技术,如文本到图像、语音到文本、视频到摘要等,构建一体化的新媒体创作平台,支持多源信息的无缝整合与创新表达;AIGC质量评估与控制:开发针对AIGC的质量评估模型与准则,确保生成内容的逻辑连贯性、信息准确性、创新性与社会接受度,同时研究内容过滤、版权保护等相关策略。目前与宁波本地得力文具、奥克斯空调等开展深入合作,多项技术成果已落地。

三、负责人

金鑫,宁波市拔尖人才,中国科学技术大学博士,新加坡国立大学LV Lab访问学者,微软亚洲研究院MSRA明日之星,曾获ACM SIGAI China(国际计算机学会中国人工智能分会)优博奖、中国科学院院长特别奖、中国科学技术大学优秀毕业生等荣誉。现任宁波东方理工大学(暂名)助理教授、博士生导师。在计算机视觉及深度学习领域发表论文40余篇,一作论文涵盖CVPR、ICCV、ECCV、ACMMM、NeurIPS、AAAI、IEEE TIP、IEEE TMM、ACM ToMM、Pattern Recognition等顶会顶刊,谷歌学术引用超过3500余次。且长期担任这些会议及期刊论文的审稿人/PC。获得授权专利多项,涵盖监控视觉、智能编码等前沿技术,同时积极参与图像及视频压缩编码相关的国际、国内标准化工作。主持国家自然科学基金青年科学基金、浙江省自然科学基金、宁波市高新区重点研发项目等课题5项,入选2023宁波“甬江人才”工程。在CVPR 2024、ECCV 2024、VCIP 2024上分别组织表征解耦与组合生成相关的Tutorial及Special Session。荣获2024IEEE电路与系统学会第二届视觉信号处理与通信新星奖,入选斯坦福大学《全球前2%顶尖科学家榜单2024》。