多模态大模型专题论坛

主持人：魏忠钰

简介：魏忠钰，副教授，博士生导师，复旦大学数据智能与社会计算实验室（Fudan DISC）负责人，香港中文大学博士，美国德州大学达拉斯分校博士后。现任中文信息学会情感计算专委会副秘书长，社交媒体处理专委会常务委员兼秘书，青年工作委员会执行委员。在自然语言处理、人工智能领域的国际会议、期刊如CL，ACL，SIGIR，EMNLP，ICML, ICLR, AAAI，IJCAI等发表学术论文80余篇。担任多个重要国际会议及期刊评审，是EMNLP 2020 多模态领域主席，EMNLP 2021 论辩挖掘领域主席。获得上海市启明星计划、青年扬帆计划，中国中文信息学会社会媒体处理新锐奖，华为技术优秀成果奖等。主要研究方向是自然语言处理，机器学习和社会媒体处理，专注于结合语言和视觉的多模态信息理解和生成、论辩挖掘和交叉学科应用研究。

主持人：王本友

简介：香港中文大学（深圳）数据科学学院助理教授，深圳大数据研究院研究科学家。迄今，他曾获 SIGIR 2017 最佳论文提名奖、NAACL 2019 最佳可解释 NLP 论文、NLPCC 2022 最佳论文、华为火花奖、腾讯犀牛鸟项目等。他还曾担任 NLPCC 2023 宣传主席、EMNLP 2023 网站主席。他带领的研究团队开发的大模型包括医疗健康垂直领域大模型华佗 GPT、阿拉伯语大语言模型AceGPT。

讲者1：王鑫龙

讲者：王鑫龙
题目：生成式多模态模型
摘要：人类具备在上下文中轻松解决多模态任务的能力（即，只需少量示例或简单指令），这是当前多模态系统难以模仿的。大语言模型展现了生成式预训练带来的强大语言能力，然而对于复杂多样的多模态任务仍显局限。这个报告将介绍大规模生成式多模态模型，使得我们能够以统一模型完成多模态感知和生成任务。重点介绍多模态生成式预训练和多模态上下文学习的最新技术，旨在提升模型在多模态上下文中解决复杂感知和生成任务的能力。
简介：王鑫龙, 智源研究院视觉模型研究中心负责人。本科毕业于同济大学，博士毕业于澳大利亚阿德莱德大学，师从沈春华教授。他的研究兴趣是计算机视觉和基础模型，近几年研究工作包括视觉感知（SOLO, SOLOv2），视觉表征 (DenseCL, EVA)，视觉上下文学习(Painter, SegGPT)，多模态表征(EVA-CLIP, Uni3D)，多模态上下文学习(Emu, Emu2)。入选Google PhD Fellowship、国家海外高层次青年人才。

讲者2：曾爱玲

讲者：曾爱玲
题目：以人为中心的多模态感知、理解和生成
摘要：从任意视频中捕捉和理解富有表现力的人体动作是计算机视觉、人机交互和可控生成中的基本且重要的任务。与面向专业用户的高成本可穿戴动作捕捉设备不同，我们为每个输入图像或视频的用户开发了一系列无标记动作捕捉技术，这也使得动作配对数据可扩展、低成本和多样化。在本次演讲中，我将重点介绍如何构建大规模以人为中心的数据和基准，包括 i) 从互联网数据中自动注释多模态数据，如动作、图像、视频、文本、音频等，ii) 通过 LLM 从视频中理解人体动作，iii) 可控的 2D 到 4D 以人为中心的生成。
简介：曾爱玲博士是腾讯的高级研究科学家。此前，她于IDEA研究院领导以人为中心的感知、理解和生成研究团队。她在香港中文大学获得博士学位。她的研究目标是在可扩展的大数据上构建多模态类人智能代理，尤其是用于捕捉、理解、交互和生成人类、动物和世界的运动的大型运动模型。她在 CVPR、ICCV、Neurips 等顶级会议发表了三十多篇论文，她的一篇长期时间序列预测的第一作者论文入选 AAAI 2023 影响力前三名论文。她的研究成果已转移或用于应用产品，例如用于可控生成的 ControlNet ComfyUI 中的 DW-Pose 和用于监控区域的 AnyVision 中的 SmoothNet。

讲者3：荆炳义

讲者：荆炳义
题目：如何实现大模型训练中的数据自适应选择？
摘要：目前，大模型的训练通常需要使用互联网级别的海量数据。然而，Scaling Law 表明，数据质量对模型性能至关重要。因此，如何从这些海量数据中筛选出高质量的样本成为一个关键问题。为了解决这一挑战，我们从底层训练框架出发，重新设计了数据在训练过程中的生命周期。这使得我们能够在训练的不同阶段引入不同的数据选择策略，以便模型能够选择最适合的数据。此外，我们还实现了一种基于学习的探索策略，使得模型能够自主进行数据筛选，从而进一步提高训练效率和模型性能。这些改进优化了数据筛选过程，同时为大模型训练提供了更加灵活和智能的解决方案。这项研究不仅在理论上具有重要意义，也在实际应用中展现出巨大的潜力，为未来的大规模模型训练开辟了新的方向。
简介：荆炳义，南方科技大学统计与数据科学系讲席教授，国家特聘专家，国家自然科学奖二等奖, 教育部长江学者讲座教授，教育部高等学校自然科学奖二等奖，美国统计学会会士 (ASA Fellow)，数理统计学会会士 (IMS Fellow)，国际统计学会当选会士 (ISI Elected Member)。中国现场统计学会多元分析委员会理事长，先后分别担任Ann Appl Probab, JBES, 《中国科学》等七家国际学术期刊副主编。研究兴趣包括：概率统计、计量经济、网络数据、强化学习、及生物信息等领域。在 Annals of Statistics, Annals of Probability, Journal of American Statistical Association, Journal of Royal Statistical Society Series B, Biometrika, Journal of Econometrics, Journal of Business and Economic Statistics, Bioinformatics，Journal of Machine Learning Research，《中国科学》，NeurIPS等顶级期刊及顶会发表论文110余篇。与产业界合作紧密,于2023年获华为“火花奖”。

讲者4：王本友

讲者：王本友
题目：长上下文的多模态大模型
摘要：多模态大模型的开发高度依赖数据和应用场景。本报告将首先介绍我们在数据方面的探索，包括高质量通用多模态图文对齐数据集 ALLaVA-4V、通用长尾视觉知识的补充数据集 Iceberg-500K 以及医学多模态知识数据集。此外，我们将探索具有更长上下文的多模态大模型，并介绍我们团队进行的相关基准 MileBench。此外，我们将讨论我们的长上下文多模态大模型的细节及其在处理更长上下文中的高分辨率图像和长视频中的应用。
简介：王本友，香港中文大学（深圳）数据科学学院助理教授，深圳大数据研究院研究科学家。迄今，他曾获 SIGIR 2017 最佳论文提名奖、NAACL 2019 最佳可解释 NLP 论文、NLPCC 2022 最佳论文、华为火花奖、腾讯犀牛鸟项目等。他还曾担任 NLPCC 2023 宣传主席、EMNLP 2023 网站主席。他带领的研究团队开发的大模型包括医疗健康垂直领域大模型华佗 GPT、阿拉伯语大语言模型AceGPT。