专题论坛
多模态大模型基础理论与应用
主持人:秦川

主持人:秦川
主持人单位:中国科学院计算机网络信息中心
个人介绍:秦川,博士,现任中国科学院计算机网络信息中心副研究员,曾在百度等互联网上市企业研究院担任高级研究员。2015和2021年于中国科学技术大学计算机学院先后获得本科与博士学位。当前主要研究方向为知识计算、认知计算、科学数据挖掘和大模型,在Proceedings of the IEEE (PIEEE)、ACM TOIS、IEEE TKDE、KDD、SIGIR、ICDE、WWW、NeurIPS、AAAI、IJCAI等国际重要期刊和会议上发表论文50余篇,海内外授权、公开专利40余项。曾获得中科院院长优秀奖、KDD'2018最佳学生论文奖、《中国科学·信息科学》热点论文奖等诸多荣誉。
讲者1:傅朝友

讲者:傅朝友
讲者单位:南京大学
题目:多模态大语言模型研究与展望
报告摘要:近年来,多模态大语言模型因其强大的泛化和推理能力,受到了国内外学者以及工业界的广泛关注。本报告将简要回顾多模态大语言模型的发展历程,并围绕多模态大语言模型的数据、评测、架构、训练和应用等方面展开阐述,探讨多模态大语言模型中存在的问题以及未来的发展方向。
个人介绍:傅朝友,南京大学智能科学与技术学院研究员、助理教授、博士生导师,入选中国科协青年人才托举工程。2022年博士毕业于中国科学院自动化研究所;2022-2024年通过“技术大咖-T10”计划加入腾讯担任高级研究员;2024年9月加入南京大学。研究方向为多模态智能,已发表论文20余篇,谷歌学术引用4千余次,作为Owner的GitHub开源项目累计获得2万余次Stars。代表性工作包括VITA多模态大模型系列(一作VITA-1.0&-1.5,通讯Long-VITA,VITA-Audio,3千GitHub Stars),MME多模态评测基准系列(一作MME&Video-MME,引用千余次)和Awesome-MLLM多模态社区(Owner,1万余次GitHub Stars)等。曾获中科院院长特别奖、IEEE Biometrics Council最佳博士学位论文、北京市优秀博士学位论文、中科院优秀博士学位论文、小米青年学者-科技创新奖、南京大学紫金学者、CVPR-2023杰出审稿人等。
讲者2:胡旭明

讲者:胡旭明
讲者单位:香港科技大学(广州)
题目:多模态大模型的幻觉现象的研究与防御方法
报告摘要:本报告将深入分析大语言模型生成幻觉现象的成因,并评估这些现象对模型可靠性的影响。报告将介绍不确定性感知的模型对齐(U2Align)和检索增强生成(RAG)的方法,这些方法旨在提升模型输出的准确性和可信度。此外,报告还将探讨针对外部攻击的水印防御技术,包括鲁棒的语义水印和公开可验证的水印,以增强模型在面对恶意攻击时的防御能力。通过对这些防御方法的介绍和分析,本报告将为大语言模型的可靠性和安全性提供新的见解。
个人介绍:胡旭明,香港科技大学(广州)人工智能学域副研究员、助理教授、博士生导师。博士于清华大学获得博士学位,主要研究方向为自然语言处理、大模型及相关领域应用,致力于探索可信大模型,并且整合多模态数据到大模型以获得更全面的通用人工智能。主持了广东省青年人才项目,广州市高层次人才项目以及一系列企业横向项目;参与了国家自然科学基金委重大项目和重点项目,国家科技部重点研发计划项目,相关研究成果落地阿里巴巴和AWS Glue的包括智能问答、智能搜索等多个应用场景。近五年,胡旭明博士在ICLR、ACL、EMNLP、NAACL、TKDE、SIGIR等大模型领域国际顶级期刊和会议上发表了10余篇第一作者文章,被引2000余次。担任ACL、EMNLP、NAACL、EACL等顶级国际会议的领域主席以及ACL Rolling Review的执行编辑,并且组织了2023年国际大数据竞赛、2022年重庆市人工智能竞赛,吸引了全球超过3000多支队伍参赛。胡旭明博士曾获得的部分荣誉包括KDD Cup全赛道全球季军,中国中文信息学会博士学位论文激励计划,北京市优秀毕业生、清华大学优秀毕业生、清华大学优秀博士学位论文等。
讲者3:曹绍升

讲者:曹绍升
讲者单位:小红书
题目:多模态大模型技术创新与落地应用
报告摘要:大模型技术日新月异,我将围绕解决工业界实际问题,详细介绍团队近期的技术创新和落地实践成果。首先,分享情感陪聊的技术创新和产品落地经验,包括Agent驱动世界日志的主动记忆对话方法iPET,以及面向个性化ai搜索生成对话PaRT框架;接着,展示小红书翻译大模型的技术细节,包括利用强化学习思考推理快速唤醒大模型翻译能力MT-R1-Zero,社交生活化风格翻译大模型RedTrans,以及基于多模态、多任务推理的图片文字翻译模型MT3;最后,介绍社交生活化领域大模型的实际任务SNS-Bench、多模态推理大模型Vision-R1和领域大语言模型RedOne。
个人介绍:曹绍升,正高级工程师,小红书NLP算法负责人,负责大语言模型、多模态大模型后训练,大模型在搜索、推荐、广告、翻译、客服和情感陪聊等场景落地应用。发表论文30余篇,授权专利100余项,引用4000余次,获得ICDE 2023年最佳工业论文奖、CIKM 2015-2020年最高引用论文、AAAI 2016最具影响力论文。此外,荣获中国发明协会创新成果一等奖(排名1)、中国人工智能学会吴文俊科技进步二等奖(排名1),连续数年入选世界人工智能学者榜单AI-2000新星榜前100名、Elsevier中国区高被引学者,CCTV-13《新闻直播间》采访报道。
讲者4:杜长德

讲者:杜长德
讲者单位:中国科学院自动化所
题目:大模型对物体概念表征的认知机理解析
报告摘要:大模型在多种任务中展现了优越的性能。然而,目前尚不清楚大模型对物体概念的表征机理是否与人脑类似。先前的研究通过量化大模型和人脑响应间的相关性来解决这个问题,但简单的相关性分析无法揭示两者对物体概念认知核心维度的异同。这里,我们使用认知心理学和脑影像实验范式,深入解析了多种大模型内部表征的类人/脑特性。我们还基于不同类型的大模型进行了大脑神经信号的编解码研究,在预测精度、生成质量、可解释性等方面取得了新突破。
个人介绍:杜长德,中科院自动化所副研究员、硕士生导师,主要从事脑认知与人工智能方面的交叉课题研究,在神经编解码、多模态神经计算、大模型机理解析、脑机融合智能等方面发表了50多篇高水平论文,包括 Nature Machine Intelligence、IEEE TPAMI、ICLR、ICML等。主持/参与多项国自然、国家重点研发等项目。长期担任 Nat. Hum. Beh., TPAMI等期刊的审稿人。曾获IEEE ICME 2019 最佳论文奖(亚军)、2021年AI华人新星百强,研究成果被《MIT Technology Review》报道。个人主页:https://changdedu.github.io/。
大模型推理与强化学习
主持人:何俊贤

主持人:何俊贤
主持人单位:香港科技大学
个人介绍:何俊贤,香港科技大学计算机科学与工程系助理教授。于2022年从卡内基梅隆大学计算机学院获得自然语言处理领域的博士学位。他最近的研究重点是大模型推理。担任ICLR、ACL和EMNLP的领域主席。代表作有Unify-PEFT, C-Eval, CodeIO, SimpleRL等。
讲者1:何俊贤

讲者:何俊贤
讲者单位:香港科技大学
题目:大模型推理 -- 从中间训练到强化学习
报告摘要:大模型的复杂推理能力不仅是其在复杂任务中应用的关键环节,也是衡量模型智能水平的重要标志之一。在本次报告中,我们将系统介绍提升大模型推理能力的主要方法及相关研究进展,并分享我们在复杂推理能力提升方面的最新工作,包括(1)CodeIO:一种通过合成数据和中间训练阶段提升模型通用推理能力的方法;(2)Laser:利用强化学习有效压缩思维链长度,从而提升推理效率;(3)SynLogic:基于大规模合成、可验证的逻辑推理数据,在强化学习中进一步增强模型的多项推理能力。
个人介绍:何俊贤,香港科技大学计算机科学与工程系助理教授。于2022年从卡内基梅隆大学计算机学院获得自然语言处理领域的博士学位。他最近的研究重点是大模型推理。担任ICLR、ACL和EMNLP的领域主席。代表作有Unify-PEFT, C-Eval, CodeIO, SimpleRL等。
讲者2:丁 宁

讲者:丁 宁
讲者单位:清华大学
题目:强化学习驱动的推理模型:密集奖励、策略熵和自演化
报告摘要:推理模型的出现揭示了另一种以探索为中心的规模化趋势,强化学习则是其中的核心技术。尽管强化学习具备严谨的理论体系,但推理模型所引入的泛化维度仍为其带来了巨大的研究空间。本次报告将会介绍报告人近期在强化学习驱动的推理模型的一系列工作,包括密集监督的构建与应用、测试时强化学习、以及一些暂未发表的研究工作(Implicit PRM 、PRIME、TTRL等),同时对这个领域进行展望。
个人介绍:丁宁,清华大学电子工程系助理教授,研究方向为人工智能,尤其注重探究通用智能和专业推理能力的理论、算法和系统,并致力于将其应用到创新科学发现中。他在Nature Machine Intelligence、ICLR、NeurIPS、ICML、ACL等人工智能会议和期刊发表多篇论文,谷歌学术引用量超过7000次,主导的开源成果在GitHub上获得超过25000星标。他曾入选中国科协青年人才托举工程,获ACL最佳系统演示论文奖、世界人工智能大会青年优秀论文奖和云帆奖、中国算力大会最佳学术论文奖、清华大学优秀博士论文、百度奖学金、Stanford全球前2%科学家等荣誉。他最近提出融合密集奖励的强化学习方法PRIME、测试时强化学习TTRL等工作。
讲者3:刘 乾

讲者:刘 乾
讲者单位:新加坡某公司
题目:SimpleTIR:大模型可以自主用代码思考与多步推理
报告摘要:零强化学习(Zero RL)设置下训练大语言模型进行多步工具集成推理(TIR)往往面临训练不稳定和依赖冷启动数据的挑战。本次talk中,我们介绍了SimpleTIR框架,一个用于训练端到端多步推理模型的方法。SimpleTIR引入了一种简单高效的数据过滤机制,成功稳定了多步推理的零强化学习训练过程。该框架促使模型自主生成并执行代码,并将执行结果无缝整合到后续推理链中。在数学推理任务上的实验表明,SimpleTIR在单步和多步设置下均实现了最先进的零强化学习性能,并在代码生成频率、思维链长度及整体性能等关键指标上取得了稳定且显著的提升,为直接基于基础模型高效提升多步推理能力提供了一条稳定高效的路径。
个人介绍:刘乾目前是新加坡某公司的研究科学家。在这之前,他是北京航空航天大学和微软亚洲研究院的联合博士研究生。他的主要研究方向是自然语言处理,主要包括代码生成与自然语言推理等。他在顶级会议如ICLR, NeurIPS, ICML上发表了数十篇论文。他一作的论文Reasoning Like Program Executors 曾获得微软MLADS 2022人工智能研讨会杰出贡献奖,他参与的StarCoder 1/2 是开源社区知名的代码生成模型。他曾获得2020年百度奖学金提名,入选KAUST Rising Stars in AI 2024,并获得北京市2023年优秀博士论文提名奖。同时,他是MLNLP社区联合创始人之一,并担任第一届MLNLP大会程序委员会主席。
讲者4:冯一人

讲者:冯一人
讲者单位:香港科技大学
题目:大模型推理: 更多样化、知识丰富,和严谨
报告摘要:本次报告将探讨如何提升大语言模型在多样化、知识密集和数学严谨场景下的推理能力。首先,我们提出Multirole-R1框架,通过多角色视角增强主观问题的多样性与准确性,结合强化学习优化推理多样性。其次,针对多模态检索增强生成,我们提出一种基于全局奖励反传的端到端优化方法,高效整合异构知识并提升事实性。最后,我们介绍一个Hybrid Reasoning框架,通过自然语言与形式化语言的混合推理,显著提升数学问题的解决能力,突破传统自然语言推理的局限性。实验表明,这些方法在多样化推理、知识增强和数学严谨性上均达到领先水平,为大模型的高阶推理提供了新思路。
个人介绍:冯一人,Yi R. (May) Fung。现为香港科技大学计算机科学与工程系助理教授,是人工智能、自然语言处理和计算社会科学领域的新锐学者。她于2024年获得伊利诺伊大学香槟分校计算机科学博士学位, 师从著名学者Heng Ji 教授。冯教授的研究聚焦于以人为中心的可信赖人工智能, 特别关注信息诚实性、基础模型知识边界感知、多模态多语言社会情境化推理等关键问题。H指数23, 连续获得ACL 2024和NAACL 2024杰出论文奖, 以及NAACL 2021最佳Demo论文奖。她曾主导参与多项美国国家级重大项 目,在 ACL 和 NeurIPS 等顶级会议任领域主席。其研究与可信人工智能、隐私保护 等密切相关,在对话系统隐私保护、大语言模型知识边界检测和拒绝响应训练等方向取 得突破性进展,与本项目提出的隐私保护、安全验证等研究方向高度契合。
讲者5:李雅夫

讲者:李雅夫
讲者单位:上海人工智能实验室
题目:大模型推理能力的进化路径:从离策略强化到测试时自适应优化
报告摘要:随着大语言模型在数学推理与复杂任务中的快速发展, 推动其推理能力持续进化、并更好对齐用户偏好已成为重要研究方向。本报告聚焦两条核心路径:一是LUFFY(Learning to Reason Under Off-policy Guidance), 通过引入外部强者轨迹, 实现大模型在离策略强化学习下的能力跃迁, 显著提升模型在数学与通用推理任务上的表现, 并有效突破弱模型的上限;二是TPO(Test-time Preference Optimization),提出基于文本反馈的测试时自适应优化方法,无需参数更新,模型即可在推理过程中通过奖励反馈迭代修正、灵活对齐用户偏好,在多项评测中展现优异性能。报告将系统介绍上述进展,探讨大模型推理能力从训练期能力突破到推理期自适应优化的前沿路径。
个人介绍:李雅夫, 上海人工智能实验室研究员, 主要研究方向包括大语言模型推理、可信人工智能与机器翻译。博士毕业于浙江大学与西湖大学联合培养项目, 先后获爱丁堡大学人工智能硕士及武汉大学电子信息工程学士学位。在ACL、EMNLP、ICLR、ICML等国际顶级会议发表多项研究成果,曾获ACL 2023最佳论文提名, 并担任ACL、EMNLP领域主席及多项国际会议和期刊审稿人。博士期间曾获国家奖学金, 入选腾讯犀牛鸟精英人才计划并获杰出奖学金。
通用群体智能
主持人:白磊

主持人:白磊
主持人单位:上海人工智能实验室
个人介绍:白磊,上海人工智能实验室青年科学家,AI for Science中心负责人。博士毕业于新南威尔士大学,其后于悉尼大学任博士后研究员,主要研究方向为科学多模态大模型和通用科学发现系统。已在Nature子刊、IEEE TPAMI、NeurIPS、CVPR、KDD等人工智能领域顶级期刊会议发表学术论文100余篇,并长期担任相关期刊会议的审稿人或程序委员会委员。基于其研究工作入选国家及上海市人才计划,获2024年IEEE TCSVT最佳论文奖、2022年世界人工智能大会云帆奖、2020年新南威尔士大学工程研究卓越奖、2019年谷歌博士奖等。
主持人:王思为

主持人:王思为
主持人单位:智能博弈与决策实验室
个人介绍:王思为,智能博弈与决策实验室(国家重点实验室)助理研究员。主要研究方向为大规模多模态数据分析、大模型多Agent等。于NeurIPS、ICML、ICLR、CVPR、ICCV、IEEE TPAMI、TIP、TKDE等人工智能顶级会议和期刊发表论文30余篇,学术引用5000余次,4篇ESI高被引论文。担任CCF-A类会议NeurIPS、ICML、ICLR、CVPR、AAAI、IJCAI、ACMMM领域主席和一区期刊Pattern Recognition编委,主持、参与多项科技委项目、科技部项目、国家自然科学基金项目。
讲者1:郝建业

讲者:郝建业
讲者单位:天津大学、华为诺亚
题目:具身智能体
报告摘要:本报告首先会介绍大模型技术背景和基础,然后介绍在大模型时代下具身智能技术,从数据、模型、优化和推理三方面,分享具身智能实现scaling law所面临的关键挑战和业界最新进展。
个人介绍:郝建业,博士,天津大学智算学部教授,华为诺亚决策推理实验室主任。主要研究方向为强化学习、具身智能和多智能体系统。发表人工智能领域CCF-A类国际会议和期刊论文100余篇,专著3部。获国家自然科学基金委优青、国家科技部2030人工智能重大课题、基金委人工智能重大培育等项目资助10余项,研究成果获国际会议最佳论文奖3次,NeurIPS大会竞赛冠军4次。相关成果在国产工业基础软件智能化、自动驾驶、游戏AI、互联网广告及推荐、5G网络优化、工业物流调度等领域广泛落地应用。
讲者2:陈伟能

讲者:陈伟能
讲者单位:华南理工大学
题目:面向共识优化的群体演化方法与应用
报告摘要:群体智能是新一代人工智能发展的重要方向,李未院士指出:“基于互联网的群体智能是新一代人工智能的核心研究领域之一”。分布式网络群体系统的共识演化与优化是多智能体和群体智能系统面临的一个基础和核心问题,传统传统基于梯度下降的多智能体分布式优化方法在面对非凸、黑箱问题时存在瓶颈。本报告将探讨将群智优化的天然并行分布式特征,与网络分布式多智能体共识理论相结合,提出多智能体分布式进化优化理论和方法体系,构建“可引导-可扩展-可信任”的分布式多智能体群智优化方法体系,并探索在三个层次上的共识演化机制——基于动力学与激励机制的共识演化、基于学习的共识演化、大模型驱动的共识演化,并介绍相关应用。
个人介绍:陈伟能,华南理工大学计算机科学与工程学院教授、博士生导师、副院长。主要研究方向是群体智能、进化计算及其应用,已发表国际期刊和国际会议论文200余篇,其中IEEE Transactions长文90余篇;牵头主持国家科技创新2030——“新一代人工智能”重大项目,国家自然科学基金企业创新联合基金重点支持项目、国家重点研发计划国际合作交流项目、国家自然科学基金-英国皇家学会牛顿基金项目等,任大数据与计算智能粤港联合创新平台负责人。2016年获国家优秀青年科学基金资助,2015年获广东省杰出青年科学基金资助;2018年获霍英东青年教师奖。现任IEEE广州分会副主席、IEEE SMC广州分支主席、中国计算机学会协同计算专业委员会常务委员、人工智能与模式识别专业委员会委员、任国际期刊IEEE TEVC, IEEE TNNLS及Complex & Intelligent Systems副主编。
讲者3:尹榛菲

讲者:尹榛菲
讲者单位:上海人工智能实验室
题目:Building AI Society with Agents - Find the Scaling Law of Agents
报告摘要:AI agents based on LLMs or VLMs have already demonstrated their exceptional ability to solve complex problems, and increasingly, these models are being extended to a wide range of downstream applications, such as workflow automation on operating systems, scientific research and discovery, and embodied AI. The integration of foundation models like VLM, VLA, and generative models, combined with external scaffolds like memory mechanisms, system prompts, external knowledge bases, and toolkits, has enabled the emergence of systematic agents capable of tackling complex, long-sequence tasks. However, human society is a complex system formed by diverse organizations, where multiple individuals collaborate and compete within a set of environmental rules to achieve unified goals or indirectly influence the environment’s state. Thus, we also envision that multi-agent systems, built upon the aforementioned foundation models, will exhibit the potential to scale from individual agents to organizational entities. This talk will review the history of AI agents, briefly discuss the architectures of foundation model-based single agents in various fields, and focus on swarm intelligence for multi-agent task completion. Finally, we will explore how, as these agents are deployed, they form collective intelligence, creating a coexistence between humans and AI agents within society.
个人介绍:尹榛菲,上海人工智能实验室星启研究员,牛津大学访问学者,研究方向为多模态基础模型、多智能体系统、具身智能等。发起和主导多个具有代表性的开源项目,涵盖从底层模型(Intern)、系统平台(CAMEL、MASWorks)、社会模拟(OASIS)到具身协作(MARS)等多个关键环节,系统性构建了具备协作、自适应、泛化能力的大模型智能体基础设施。在NeurIPS、ICLR、ICML、ICCV等顶级会议发表论文20余篇,长期担任 ICLR、NeurIPS、ICML、ARR、TPAMI等顶级会议和期刊的审稿人。
讲者4:陈思衡

讲者:陈思衡
讲者单位:上海交通大学
题目:Collective Intelligence Across Digital and Physical Spaces
报告摘要:This talk investigates how collective intelligence—emerging from coordinated multi-agent systems—can enhance capabilities in both digital and physical domains. In digital environments, we explore how large language model (LLM)-based agents, when organized into collaborative multi-agent systems, demonstrate emergent abilities in general-purpose tasl-solving, code generation, and scientific reasoning. By engaging in task decomposition, debate, and consensus, these agents can solve complex problems that exceed the capabilities of any single model.
In parallel, physical environments offer compelling evidence for the power of embodied collective intelligence. We highlight vehicle-road cooperative autonomous driving as a representative case, where multi-agent coordination among vehicles, infrastructure, and cloud systems significantly enhances real-time perception, planning, and decision-making. These systems showcase how collaboration in dynamic, uncertain environments can improve safety, efficiency, and adaptability.
个人介绍:陈思衡,上海交通大学人工智能学院副教授、博士生导师,美国卡内基梅隆大学(CMU)博士,入选国家级人才计划青年项目,曾就职于美国UBER ATG自动驾驶部门。承担了基金委原创探索项目、面上项目,科技部人工智能2030重大项目课题,上海市科委人工智能专项等科研项目。研究聚焦多智能体系统,在Nature Communications, Nature Computational Science, T-PAMI, NeurIPS, ICML, ICLR, CVPR等期刊和会议上发表了百余篇论文, 谷歌引用1万余次。曾获得IEEE信号处理协会最佳青年作者论文奖,ASME结构检测协会最佳论文Runner-Up奖,2018 GlobalSIP会议最佳论文奖,三菱电机实验室总统奖等。
讲者5:钱 忱

讲者:钱 忱
讲者单位:上海交通大学
题目:大模型群体协作的路由高效化机制
报告摘要:在大模型与智能体持续进化的时代,群体协作已成为释放算力与智能潜力的关键途径。多智能体协作不仅突破了单体智能的能力边界,为系统赋予了前所未有的扩展性和广阔前景。但高效协作并非“免费的午餐”——随着协作规模和复杂度迅速增长,信息交换冗余、协同路由低效以及经验难以复用等问题日益突出,成为提升整体性能的主要效率瓶颈。本报告将系统梳理智能体协作中的三类核心成本,并针对这些效率瓶颈,提出高效交互、高效路由和高效推理三项优化方向,助力打造更具性价比和弹性的智能体群体协作新范式。
个人介绍:钱忱,博士生导师,研究方向包括大语言模型、自主智能体、多智能体系统。曾在清华大学博士后流动站和腾讯人工智能平台部从事研究工作,并入选清华大学“水木学者”和腾讯“技术大咖”计划。主导研发了多智能体协作框架ChatDev、智能体互学习技术Co-Learning、大规模群体协作和涌现机制研究MacNet、化身协作iAgents等相关成果。
讲者6:杨 成

讲者:杨 成
讲者单位:北京邮电大学
题目:面向大模型多智能体的高效通信协议研究
报告摘要:大语言模型(LLMs)目前已展现出推理、规划、工具使用等诸多类人智能,可作为智能体(Agent)的大脑自动化地处理各种复杂任务。然而这些大语言模型智能体是否能够像人类一样学会有效沟通与分工,更快更好地进行任务协作,仍然是一个亟待探索的问题。本报告将从智能体间的高效通信协议设计出发,介绍大语言模型智能体协作研究的最新进展。
个人介绍:杨成,北京邮电大学副教授,博士生导师,长期从事数据挖掘和自然语言处理相关方向的研究,发表相关领域CCF A类论文40余篇,谷歌学术被引1.5万余次,相关成果获2020年教育部自然科学奖一等奖(排名第四)等省部级奖励。获中文信息学会优秀博士论文奖、中国人工智能学会吴文俊青年科技奖,入选中国科协“青年人才托举工程”,连续三年入选斯坦福大学发布的全球前2%顶尖科学家榜单。
青年人才论坛
主持人:赵大伟

主持人:赵大伟
主持人单位:齐鲁工业大学(山东省科学院)
个人介绍:赵大伟,研究员,博士生导师,国家级青年人才、泰山学者青年专家、山东省科技创新团队负责人,现任齐鲁工业大学(山东省科学院)计算学部副主任、山东省计算中心(国家超级计算济南中心)副主任、算力互联网与信息安全教育部重点实验室副主任。在国内外知名期刊会议上发表论文100余篇;获授权发明专利20余项;主持国家重点研发计划课题、国家自然科学基金(面上、青年各1项)、科技创新2030“新一代人工智能”重大项目(任务)、科教产融合创新重大项目、山东省自然科学基金等20余项;以第一完成人身份获山东省科技进步二等奖1项、山东省自然科学学术创新奖1项,参与获山东省科技进步二等奖2项。主要研究方向:面向算力网络、工业控制系统、社交网络等复杂网络系统开展漏洞挖掘、入侵检测、安全态势评估、攻击响应等攻防技术研究,以及网络结构分析、网络鲁棒性、网络传播动力学等网络结构与动力学研究。
讲者1:刘瑞

讲者:刘瑞
讲者单位:内蒙古大学
题目:情智兼备人机语音对话
报告摘要:对话语音生成是人机语音对话中的关键任务之一,在人机交互、元宇宙等领域具有广泛的应用,近年来吸引了学术界和产业界的共同关注。共情是人工智能发展的终极目标,如何构建情智兼备的对话语音生成模型是当前急亟需解决的关键问题。本报告将介绍团队从异构图上下文建模、生成式对话生成框架、受思维链启发的链式理解和生成框架等不同视角开展的对话语音生成研究。在提升情感理解和表达能力的同时,增强人机语音对话场景下的情感理解和表达可解释性。
个人介绍:刘瑞,内蒙古大学计算机学院(软件学院)、人工智能学院教授、博导,入选中国科协青年人才托举(青托)工程、内蒙古杰青、第七届中国青年科技工作者协会会员、中国计算机学会(CCF)高级会员;国家自然科学基金、国家留学基金委评审专家。主持国自然面上、国自然青年、内蒙古自治区杰出青年基金项目、内蒙古自治区重点研发和成果转化计划项目、内蒙古自治区草原英才等10余项国家/省部级项目。主要研究方向为多语种人机语音交互,相关成果以第一或通讯作者发表于IEEE-TASLP、IEEE-TAFFC、Neural Networks、Information Fusion和ACL、ACMMM、AAAI、ICASSP、INTERSPEECH等CCF-A/CAAI-A类学术会议或中科院一区Top期刊等。担任国际期刊IEEE TAFFC/ACM TALLIP/INNFUS编委。
讲者2:王常维

讲者:王常维
讲者单位:齐鲁工业大学(山东省科学院)
题目:兼顾效率和可靠性的多模态大模型探索
报告摘要:本报告聚焦多模态大模型在效率与可靠性方面的创新探索。针对推理速度瓶颈,提出AASD框架通过KV缓存压缩与目标-草案注意力机制,实现2倍加速且不损失精度;针对视觉幻觉问题,设计DuCAR方法通过双模态协同注意力强化,结合视觉CLS驱动采样与跨模态动态采样策略,有效抑制无关信息干扰并提高交互效率。实验表明,AASD在主流MLLMs中显著提升推理效率并不损失模型精度和可靠性,而DuCAR在POPE/CHAIR基准上达到SOTA幻觉缓解效果,同时通过去除干扰token也提升了运行效率。两项工作分别从推理加速与幻觉去除角度突破多模态模型的效率与可靠性局限,为构建兼顾高效和可靠性多模态系统提供新思路。
个人介绍:王常维,博士,齐鲁工业大学(山东省科学院)计算学部特聘副研究员,中国科学院院长特别奖获得者。研究方向为多模态学习、具身智能、模型轻量化,在国际顶级期刊(IEEE TPAMI,IEEE TIP,IEEE TNNLS,IEEE TMM, IEEE TII)和会议(ICCV,CVPR,ICML,NeurIPS,AAAI,DAC, ICRA)上发表论文60余篇,其中CCF-A类/中科院一区40余篇,一作/通讯(含共同)发表CCF-A类/中科院一区论文18篇,ESI高被引论文3篇,CCF-B类会议最佳论文入围1篇, IEEE Transactions 封面文章1篇,谷歌学术累计被引1000余次。
讲者3:王鑫

讲者:王鑫
讲者单位:齐鲁工业大学(山东省科学院)
题目:FedSaaS: Class-Consistency Federated Semantic Segmentation via Global Prototype Supervision and Local Adversarial Harmonization
报告摘要:联邦语义分割技术作为一种隐私保护的分布式学习方法,通过跨客户端协作学习实现图像像素级分类任务。然而,实际应用中客户端数据的异构性往往导致显著的特征分布差异,特别是当同类对象呈现不同表征分布时,会严重削弱模型的泛化能力。针对这一关键挑战,本报告提出一种基于全局原型监督与局部对抗协调的类一致性联邦学习框架。该框架的创新性体现在三个方面:首先,通过建立类别原型基准系统,在服务器端构建全局语义表征空间;其次,在客户端层面引入对抗训练机制,实现局部特征分布与全局原型的动态对齐;最后,设计多级对比损失函数,有效挖掘全局语义引导与局部特征适配的协同效应。实验结果表明,该方法在多个复杂异构分割场景中均展现出显著的性能优势,不仅解决了跨客户端类别表征失衡问题,更在保持数据隐私的前提下提升了模型鲁棒性,为分布式智能系统的安全部署及跨域数据协同应用提供了可靠的技术支撑。
个人介绍:王鑫,浙江大学博士,特聘研究员,硕士生导师,泰山学者青年专家,山东省高等学校青年创新团队负责人。主要研究方向包括分布式人工智能、AI安全与隐私保护、大小模型协同等,近年来主持国家自然科学基金青年基金、国家重点研发计划子课题、山东省自然科学基金面上和青年项目等项目12项,相关研究成果在IEEE TIFS、TMC、TSP、IJCAI、AAAI等知名期刊/会议上发表学术论文50余篇,其中以第一作者/通讯作者身份发表高水平论文20余篇,授权国家发明专利46项(第一发明人15项)、美国发明专利1项(第一发明人),曾获2022年山东省科技进步二等奖、2023年和2024年齐鲁工大计算学部高质量科技创新成果基础研究类二等奖(第一完成人和第二完成人)、2024年ICAUS会议最佳论文奖、2021年CCSICC会议最佳张贴论文奖等荣誉和奖励。现任中国自动化学会工业物联网技术与应用专委会委员、青年工作委员会委员,中国计算机学会物联网专委会执行委员,ICEA、DSC、GLOBECOM等多个国际会议论坛主席或程序委员会委员,以及IEEE TMC、TKDE、TSP、TII、IJCAI、MM等多个高水平学术期刊和会议特约审稿人。
讲者4:仝丰华

讲者:仝丰华
讲者单位:齐鲁工业大学(山东省科学院)
题目:基于Transformer的图像压缩感知模型
报告摘要:卷积神经网络在图像处理领域占据主导地位,但存在局部归纳偏差的问题,而具有自注意力机制的Transformer能够捕获全局上下文,从而解决这一问题。然而,如何继承并整合它们的优势以增强图像压缩重建质量是当前深度压缩感知领域的热点。本次报告我们介绍一种基于Transformer和动态卷积的混合架构,通过整合局部和全局特征的表示能力,显著提升图像压缩感知重建质量。
个人介绍:仝丰华,博士,齐鲁工业大学(山东省科学院)计算学部特聘副研究员,硕士研究生导师,山东省高等学校青年创新团队负责人,长期致力于压缩感知理论与应用方面的研究,在IEEE Trans. Inf. Theory、IJCAI、EAAI等信号与信息处理、人工智能领域国内外知名期刊发表论文20余篇,其中CCF A类或中科院1区期刊9篇;授权发明专利10余项;主持国家自然科学基金青年基金项目1项、山东省自然科学基金青年项目1项、国家重点实验室开放课题1项。
讲者5:刘臣胜

讲者:刘臣胜
讲者单位:齐鲁工业大学(山东省科学院)
题目:基于时空网络的电力隐秘攻击检测与定位
报告摘要:由于电力信息与物理系统间存在复杂的耦合关联,对网络攻击及时准确的检测和定位对确保系统稳定运行意义重大。本项目考虑新能源随机扰动下的隐秘攻击检测和定位问题,从电力测量数据的时间-空间关联特征挖掘出发,设计了基于时空网络的攻击检测和辨识框架,在未知随机扰动、电网动态拓扑情况下,实现对多种攻击的检测和辨识,显著提高了系统的抗攻击能力。
个人介绍:刘臣胜,2018年于上海交通大学获得博士学位,2018-2021年先后在加拿大阿尔伯塔大学、华东理工大学从事博士后研究,2021-2024年在华东理工大学担任特聘研究员,目前为齐鲁工业大学(山东省科学院)计算学部研究员,硕士生导师。研究方向包括:人工智能安全、信息物理系统安全、智能电网优化与控制等。2024年入选山东省泰山学者青年专家,2019年入选博士后创新人才支持计划、上海市超级博士后激励计划,2023年获中国自动化学会自然科学奖二等奖。在IEEE Trans. Smart Grid、IEEE Trans. Power Systems等本领域顶级刊物发表科研论文20余篇,主持国家自然科学基金重大项目子课题、国家自然科学基金面上项目等。
讲者6:李佳宸

讲者:李佳宸
讲者单位:齐鲁工业大学(山东省科学院)
题目:面向增强现实的3D空间感知
报告摘要:在数字化浪潮下,增强现实技术正深刻变革诸多领域。本次报告聚焦面向增强现实的3D空间感知,重点探讨三维物体跟踪、三维重建与增强现实的融合与应用。通过高精度三维物体跟踪技术,精准捕捉物体动态变化;基于三维重建算法,整合多源空间数据,构建真实场景的精确模型。在此基础上,增强现实应用得以实现精准信息叠加与交互,为工业、教育、文化等领域带来沉浸式体验。
个人介绍:李佳宸,博士,齐鲁工业大学(山东省科学院)计算学部特聘副研究员,硕士生导师,泰山学者青年专家,信息化战略与标准研究团队科研骨干。于山东大学软件学院软件工程专业获得工学博士学位,于浙江大学计算机科学与技术学院CAD&CG国家重点实验室完成博士后研究。主持国家自然科学基金青年科学基金项目1项,山东省重点研发计划(重大科技创新工程)课题1项,山东省自然科学基金青年项目1项,发表SCI/EI论文10余篇。
讲者7:宋维钊

讲者:宋维钊
讲者单位:齐鲁工业大学(山东省科学院)
题目:基于数据驱动与事件触发的异构多智能体系统协同控制
报告摘要:多智能体系统(Multi-Agent System,MAS)的协同控制在飞行器编队、机器人协同和传感器融合等方面具有广泛应用。一致性是MAS协同控制的基本问题,本报告聚焦MAS一致性研究中的动态模型未知、通信带宽受限和拓扑信息依赖等问题,回顾了我们在异构MAS的完全分布式事件触发控制和无模型自适应控制等方面的系列研究工作,以及近期面向DoS攻击的分布式协同控制相关工作。研究核心贯穿通信效率、系统鲁棒性与完全分布式实现。
个人介绍:宋维钊,博士,齐鲁工业大学(山东省科学院)计算学部特聘副研究员。2023年1月博士毕业于东北大学控制理论与控制工程专业。研究领域包括集群系统、数据驱动控制、事件触发控制和系统安全及其应用,在IEEE Trans. Cybern.,IEEE Trans. Neural Netw. Learn. Syst.,IEEE Trans. Syst., Man, Cybern., Syst.和Inf. Sci.等学术期刊和会议上发表学术论文15篇。
讲者8:张淑慧

讲者:张淑慧
讲者单位:齐鲁工业大学(山东省科学院)
题目:人工智能与恶意代码检测
报告摘要:围绕当前恶意代码检测面临的挑战,研究基于Fragment-CNN算法模型的恶意代码检测分类、基于时序分析与内存取证的离地攻击检测、基于多层次特征融合的恶意代码检测、基于图神经网络的物联网恶意代码检测等方法,实现对恶意代码的高效检测。
个人介绍:张淑慧,研究员,博士生/硕士生导师,泰山学者青年专家,CCF高级会员,山东区块链研究会理事,山东计算机学会网络空间安全专委会委员。主持国家重点研发计划课题1项、国家自然基金1项、山东省自然基金4项以及其他省部级项目3项,作为主要人员参与国家重点研发计划、国家自然科学基金、省重大科技创新工程等省部级项目30余项。获得山东省科技进步奖一等奖1项、二等奖1项、三等奖1项,其它省部级奖励1项。出版国内首部内存取证方面的学术专著《内存取证原理与实践》,发表SCI/EI收录论文60余篇,申请发明专利70余项,获授权发明专利30余项。
讲者9:高永标

讲者:高永标
讲者单位:齐鲁工业大学(山东省科学院)
题目:强化标记分布学习研究
报告摘要:标记分布学习(LDL)是解决多义性学习任务的关键机器学习范式。但传统LDL方法在应对序列多义性任务时表现不佳,且面对不平衡标记分布时应用受限。本报告从强化学习序列决策视角切入,阐述如何融合二者,利用强化学习解决LDL动态决策问题,用LDL化解强化学习任务中的多义性,并介绍运用动态解耦与动量分配机制解决不平衡性标记分布学习的方法。
个人介绍:高永标,齐鲁工业大学(山东省科学院)计算学部特聘副教授,工学博士,硕士生导师,“齐鲁青创学者”创新人才计划入选者,博士毕业于东南大学PALM实验室。主要研究方向为机器学习、人工智能、计算机视觉、多模态/语言大模型,相关研究成果发表在TNNLS, TMM, IJCAI, ICASSP等顶级国际期刊和会议,受邀担任ICML, NeurIPS, ICLR, CVPR, IJCAI, ICME, UAI, TNNLS, TKDE, TAI等国际会议和期刊的AC, Meta Reviewer或审稿人。主导研发“核影智析”、“观天智解”、“慧康方舟”垂直应用领域多模态/语言大模型。主持国家自然科学基金、山东省自然科学基金等多项科研项目。
讲者10:傅科学

讲者:傅科学
讲者单位:齐鲁工业大学(山东省科学院)
题目:语言模型驱动下的计算病理与图像分割任务探索
报告摘要:随着大语言模型技术的不断发展,语言模型的应用范围已超越了文本处理,在视觉信息处理领域等领域也展现出了很好的前景。本报告围绕“语言模型驱动”的核心思想,探讨其在计算病理与图像分割两大计算视觉任务中前沿进展与应用价值,分析如何将现有的语言模型或者视觉语言模型与传统的计算机视觉任务进行快速适配,增强视觉模型对不同场景的泛化能力和精度,最后总结语言模型在视觉信息处理中深入应用的研究思路与潜在挑战。
个人介绍:傅科学,齐鲁工业大学(山东省科学院)计算学部特聘研究员,泰山学者青年专家,中国计算机学会数字医学分会执行委员,中国中医药信息学会中西医外科智能诊疗分会理事。长期从事计算机视觉、医学图像处理与具身智能领域的研究工作,作为第一作者在 IEEE TPAMI、CVPR、ICCV、NeurIPS、AAAI等国际顶级期刊和会议上发表高质量研究论文 30 余篇,ESI高被引论文1篇,提出了基于深度图匹配、2D-3D配准、多模态配准、无约束配准等系列高精度点集配准方法和多种视觉-语言模型,受到国内外同行的广泛引用,多次担任CVPR/ICCV/ECCV/AAAI/MICCAI/ACM-MM等国际顶级会议审稿人,TPAMI/TVCG等期刊审稿人,以及第二届山东省计算机视觉大会论坛主席等。