上海电影学院两项研究成果被计算机视觉国际会议CVPR2026录用

发布日期: 2026/03/05  投稿: 王超    部门: 上海电影学院   浏览次数:    返回

近日,上海电影学院影视工程系李梦甜教师团队(MAGIC Lab)两项前沿研究工作《FoleyDesigner: Immersive Stereo Foley Generation with Precise Spatio-Temporal Alignment for Film Clips》与《GardenDesigner: Encoding Aesthetic Principles into Jiangnan Garden Construction via a Chain of Agents》成功被计算机视觉国际顶级会议CVPR 2026录用。

CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)是中国计算机学会(CCF)推荐的A类国际顶级会议,在计算机视觉与人工智能领域享有极高声誉,长期引领学科发展前沿。据Google Scholar Citation 2025年统计,CVPR的H5-index高达450,位列全球出版物第二,仅次于《Nature》,工程与计算机类出版物第一,泛人工智能领域第一,代表了该领域世界顶尖的研究水平。

此次两项成果同时入选,不仅体现了团队在“AI+艺术”交叉领域的持续科研创新能力,也标志着上海电影学院正稳步走向国际学术舞台。

FoleyDesigner:让影视声音“沉浸有声”。FoleyDesigner是团队在“AI+电影声音”领域的又一突破。继此前在影视音效(SonicVisionLM, CVPR 2024)与影视配乐(FilmComposer, CVPR 2025)上的工作后,本项目聚焦于电影拟音的智能化生成,致力于推动影视工业进入沉浸式声音新时代。该研究首次将AIGC技术引入电影立体声拟音创作,通过大模型与多智能体协同,完整模拟了专业拟音师的工作流程。它能够理解视频内容,自动生成与画面在空间位置、帧级时间上精准对齐的高品质立体声拟音,并直接输出符合专业标准的5.1环绕声(杜比全景声混音),可无缝嵌入实际电影后期管线。其核心价值在于:提质,显著提升生成拟音的影视级品质、音画一致性及时空对齐精度;增效,大幅优化后期流程,降低制作成本,同时为声音设计提供高自由度的创作工具。此外,团队开源了高质量电影立体声拟音数据集FilmStereo,包含14,784个标注条目,涵盖立体声音频、精确时间戳、三维空间信息及系统的类别文本描述及 23 个细分领域,为学术社区后续研究提供了重要数据基础。

图1:FoleyDesigner包含三个主要模块——分层影片解析、视觉引导空间音频合成与多智能体音质精修。用户输入无声视频首先被转化为符合声音设计原则的场景-事件-材质分层脚本;随后在各时段中基于视觉语义进行空间化立体声生成;最终经多智能体协同优化输出5.1环绕声拟音。

FoleyDesigner论文原文、代码和数据集详见项目主页:https://gekiii996.github.io/FoleyDesigner/ 。本论文的学生一作为戴坤延,数字媒体创意工程硕士研究生二年级在读;学生二作为丁乙,数字媒体技术本科三年级在读;学生三作为倪若冰,数字媒体技术本科三年级在读。

GardenDesigner江南园林的“智能筑景”。GardenDesigner是团队在“AI+艺术场景”方向的持续探索。继戏剧艺术舞台(StageDesigner, CVPR 2025)与影视场景置景(FilmSceneDesigner, AAAI 2026)的智能化生成后,本项目首次将大模型与智能体链技术应用于江南园林的设计与生成,实现了从文本描述到完整园林场景的智能生成。该系统通过模拟真实园林设计师的思维流程,将水系、曲径、景观布局等传统美学法则编码进计算框架,实现了符合文化逻辑与审美意境的自动设计。用户只需输入简单文本,系统即可在一分钟内生成包含完整布局的园林方案,并输出可用于实际建造的二维指导图。其核心价值在于:降低门槛,让非专业用户也能快速进行专业级园林创作,极大降低数字建模成本;赋能多领域,生成的场景可直接用于游戏、影视、VR/AR及数字文旅等项目;传承文化,为文化遗产的数字化保存与创新提供智能工具。同时,团队开源了高质量园林资产数据集GardenVerse,包含132个带有高清纹理与详细专家知识标注的精细模型,为传统美学数字化与3D生成研究提供了宝贵资源。

图2: GardenDesigner包含两个主要模块——分层园林构建与知识嵌入资产布局。用户输入首先被转化为符合园林美学原则的地形与路径生成参数;随后在各区域中基于园林知识进行资产选择与约束优化布局,最终生成完整的江南园林。

GardenDesigner论文原文、代码和数据集详见项目主页:https://monad-cube.github.io/GardenDesigner/。本论文的学生一作为杨凡,电子信息硕士研究生三年级在读;学生二作为熊瑞雪,电子信息硕士研究生一年级在读;学生三作为范艺严,电子信息硕士研究生一年级在读。

教师介绍:

李梦甜,工学博士,博士后,现上海大学上海电影学院、上海电影特效工程技术研究中心讲师(助理教授),MAGIC Lab PI。主要研究方向为面向影视、游戏与艺术领域的数字内容理解与生成、人机交互、人工智能艺术创作。以第一/通讯作者发表CCF A/SCI-Q1论文20余篇,国家授权专利多项。主持国自然青年科学基金,上海市科委“科技创新行动计划”面上基金,“CCF-网易雷火联合基金”二期,入选上海大学“青年英才启航计划”。参与国家重点研发计划、国家社科重大、国自然面上基金(4项)。担任计算机视觉国际顶级会议及期刊SIGGRAPH、SIGGRAPH Asia、 CVPR、ICCV、ECCV、ICLR、ICML、NeurIPS、ACMMM、TPAMI等审稿人,The Visual Computer期刊编委。任中国计算机学会CAD/CG专委会执行委员(秘书处成员),图形学与混合现GAME执行委员,CSIG数字娱乐与智能生成专委会、三维视觉专委会、多媒体专委会执行委员,中国电影电视技术学会、中国电影高新技术专业委员会常任委员。