专题论坛

语言大模型到代码大模型专题论坛

主持人：车万翔

简介：车万翔，哈尔滨工业大学计算学部长聘教授/博士生导师，人工智能研究院副院长，国家级青年人才，龙江学者“青年学者”，斯坦福大学访问学者。现任中国中文信息学会理事、计算语言学专业委员会副主任兼秘书长；国际计算语言学学会亚太分会（AACL）执委兼秘书长。承担国家自然科学基金重点项目、2030“新一代人工智能”重大项目课题等多项科研项目。著有《自然语言处理：基于预训练模型的方法》一书。曾获AAAI 2013最佳论文提名奖。负责研发的语言技术平台（LTP）已授权给百度、腾讯、华为等公司付费使用。2016年获黑龙江省科技进步一等奖（排名第2），2020年获黑龙江省青年科技奖。

主持人：李戈

简介：李戈，北京大学长聘教授，博士生导师，国家级高层次人才。长期聚焦于程序理解、程序生成、深度学习等技术的研究，是国际上最早从事“基于深度学习的程序理解与生成”研究并取得代表性成果的研究者，在多个国内外顶级会议与期刊发表相关论文50余篇，多篇论文被国际学者认是“开创性成果”，并被广泛引用，多次获ACM杰出论文奖。在软件与人工智能领域的多个国际会议担任程序委员会共同主席与PC。曾获教育部科技进步一等奖，CCF科技发明一等奖，北京市科技发明二等奖，中创软件人才奖。教学课程被首批认定为“国家级一流线下课程”和“国家级一流线上课程”，并多次获省部级教学奖。科研转化成果aiXcoder为航天领域的重大工程、金融与IT领域的多家大型企业及数十万国际开发者提供服务。

讲者1：刘辉

讲者：刘辉
题目：基于大模型的代码重构与优化
摘要：探讨大模型技术在代码优化方面的潜力与挑战，分析比较基于大模型的代码生成与代码优化的难点和差异，剖析大模型技术在代码优化领域的前景。以软件重构为例探索基于大模型的代码自动优化，探讨其中面临的关键技术挑战以及潜在的应对策略。
简介：刘辉，北京理工大学教授，CCF软件工程专委会秘书长。长期从事软件开发环境方面的研究工作，在ICSE、ESEC/FSE、ASE、ISSTA、IEEE TSE、ACM TOSEM等发表录用三十余篇学术论文，部分成果被Eclipse等主流IDE采纳集成。获得ESEC/FSE 2023杰出论文奖、ICSE 2022杰出论文奖、RE 2021最佳论文奖、IET Premium Award(2016) 。

讲者2：石琳

讲者：石琳
题目：基于交互式需求澄清的大模型代码生成
摘要：随着AI大模型能力的大幅提升，软件开发已经逐步走向新智能化时代。然而，开发者想写出一个清晰明确且全面的Prompt并不容易。Prompt中需求表述不明确导致大模型难以识别开发者背后的真实意图，这也是目前代码大模型在实践中遇到的巨大阻碍之一。本次报告将介绍我们在代码生成能力优化方面的最新研究，探索如何基于交互式需求澄清的方法，让代码大模型更好地理解用户意图，从而提升大模型的代码生成效果。
简介：石琳，北京航空航天大学教授，CCF高级会员。研究方向为智能软件工程，包括代码智能、智能需求工程、开源软件、可信AI等。曾在人工智能、软件工程领域的高水平国际会议IJCAI，ICSE，FSE，ASE等发表论文50余篇，三次获得杰出论文奖：ACM SIGSOFT 杰出论文奖（ASE21）、连续两次获国际需求工程大会杰出论文奖（RE21，RE20）。主持参与多项国家项目、头部重点企业合作项目。同时担任多个国际知名会议期刊包括ICSE、ASE、FSE、TOSEM期刊等审稿人。

讲者3：卢帅

讲者：卢帅
题目：可信代码生成
摘要：近年来，大语言模型已经展示出卓越的代码生成能力。然而，大模型并不能保证生成代码的准确性，尤其是对于较为复杂的算法实现或是工程代码，通常很难在一次尝试中生成正确的程序。为了解决这一问题，报告将介绍如何在大模型时代下引入软件工程领域的程序测试或形式化验证等方式，借助大模型强大的生成能力，一方面，让大模型自我验证，从而提高代码生成的可信度。另一方面，报告也关注如何利用大模型将程序的形式化验证过程自动化，从理论证明的角度验证代码可靠性。
简介：卢帅，微软亚洲研究院研究员，2021年毕业于北京大学，研究领域为代码智能和自然语言处理，致力于用深度学习技术实现软件开发自动化，赋能程序开发者。主要研究专注于代码自动补全、代码生成、程序语言预训练模型等，研究成果发表于NeurIPS, ICLR, ACL, ICSE, FSE等人工智能与软件工程学术会议，谷歌学术引用量三千余次。

讲者4：余涛

讲者：余涛
题目：OSWorld：在真实计算机环境中对开放式任务的多模态代理进行基准测试
摘要：由于视觉-语言模型（VLMs）的进步，自主数字代理的出现有望彻底改变人机交互，提高可访问性和生产力。这些多模态代理可以在不同环境中自主地进行复杂的推理、决策和多步骤行动计划。在本次演讲中，我将主要介绍OSWorld，这是一个专门设计用于推动开发能够在各种操作系统、界面和应用程序中执行广泛数字任务的代理的真实计算机环境。我将分享关于在OSWorld环境中执行开放式任务的尖端VLMs的见解。我还将介绍在这一方向上的一些其他最新工作，包括用于多样环境适应的指令微调检索器，以及通过工具集成增强LLM能力。演讲将以对这个迅速发展领域的当前和未来研究前景的探讨结束。
简介：余涛，香港大学计算机科学助理教授，主要研究方向是自然语言处理。他在耶鲁大学获得博士学位，并在华盛顿大学UWNLP担任博士后研究员。他的研究目标是构建能将语言指令转化为可在现实环境中执行的代码或动作的语言模型代理，包括数据库、网络应用和物理世界等。这是下一代自然语言界面的核心，可以通过对话与现实世界互动并学习，促进人类与数据分析、网络应用和机器人指令的交互。他曾获得谷歌研究学者奖和亚马逊研究奖。

讲者5：朱庆福

讲者：朱庆福
题目：多语言代码大模型
摘要：近年来，代码大模型技术蓬勃发展，带动了更多种类的编程语言数据向大模型的汇集，进而推动了代码生成任务由单编程语言向多编程语言的扩展。与此同时，由于全球95%人口的母语为非英语的自然语言，进一步将代码生成任务扩展至多自然语言同样至关重要。为此，本报告将对比代码大模型在多种编程语言、多种自然语言之间的性能差异，介绍提升低资源语言性能的方法，以及充分利用代码大模型的多语言能力提升下游任务表现的尝试。
简介：朱庆福，哈尔滨工业大学助理教授，美国加州大学圣塔芭芭拉分校联合培养博士。主要研究方向为自然语言处理，代码生成。在自然语言处理领域发表论文多篇，包括国际顶级会议ACL、AAAI、EMNLP等。主持及参与国家自然科学基金项目、科技创新2030-“新一代人工智能”重大项目多项。

讲者6：李力行

讲者：李力行
题目：基于aiXcoder代码大模型的智能化软件开发应用实践
摘要：软件研发领域的基于大模型的智能化，是当前软件开发技术与工具的关注热点和发展趋势，越来越多的企业对于基于代码大模型的智能化软件研发应用有强烈需求，但同时也面临诸多挑战。aiXcoder团队在该领域的探索和实践已有10年时间，是基于AI的智能化开发领域的开拓者和推动者。本报告将围绕基于大模型的软件开发技术与范型，汇报aiXcoder在代码大模型领域的最新进展，分享aiXcoder在代码大模型企业落地实践方面的一些探索与思考。
简介：李力行, aiXcoder首席运营官，北大/中科院数学所计算机软件与理论博士，曾任阿里优酷搜索团队算法负责人、医疗AI创业公司联合创始人及CIO，15年以上AI算法研究和团队管理经验。长期从事人工智能应用相关工作，当前负责aiXcoder智能化软件开发系统的产研和应用落地。

多模态大模型专题论坛

主持人：魏忠钰

简介：魏忠钰，副教授，博士生导师，复旦大学数据智能与社会计算实验室（Fudan DISC）负责人，香港中文大学博士，美国德州大学达拉斯分校博士后。现任中文信息学会情感计算专委会副秘书长，社交媒体处理专委会常务委员兼秘书，青年工作委员会执行委员。在自然语言处理、人工智能领域的国际会议、期刊如CL，ACL，SIGIR，EMNLP，ICML, ICLR, AAAI，IJCAI等发表学术论文80余篇。担任多个重要国际会议及期刊评审，是EMNLP 2020 多模态领域主席，EMNLP 2021 论辩挖掘领域主席。获得上海市启明星计划、青年扬帆计划，中国中文信息学会社会媒体处理新锐奖，华为技术优秀成果奖等。主要研究方向是自然语言处理，机器学习和社会媒体处理，专注于结合语言和视觉的多模态信息理解和生成、论辩挖掘和交叉学科应用研究。

主持人：王本友

简介：香港中文大学（深圳）数据科学学院助理教授，深圳大数据研究院研究科学家。迄今，他曾获 SIGIR 2017 最佳论文提名奖、NAACL 2019 最佳可解释 NLP 论文、NLPCC 2022 最佳论文、华为火花奖、腾讯犀牛鸟项目等。他还曾担任 NLPCC 2023 宣传主席、EMNLP 2023 网站主席。他带领的研究团队开发的大模型包括医疗健康垂直领域大模型华佗 GPT、阿拉伯语大语言模型AceGPT。

讲者1：王鑫龙

讲者：王鑫龙
题目：生成式多模态模型
摘要：人类具备在上下文中轻松解决多模态任务的能力（即，只需少量示例或简单指令），这是当前多模态系统难以模仿的。大语言模型展现了生成式预训练带来的强大语言能力，然而对于复杂多样的多模态任务仍显局限。这个报告将介绍大规模生成式多模态模型，使得我们能够以统一模型完成多模态感知和生成任务。重点介绍多模态生成式预训练和多模态上下文学习的最新技术，旨在提升模型在多模态上下文中解决复杂感知和生成任务的能力。
简介：王鑫龙, 智源研究院视觉模型研究中心负责人。本科毕业于同济大学，博士毕业于澳大利亚阿德莱德大学，师从沈春华教授。他的研究兴趣是计算机视觉和基础模型，近几年研究工作包括视觉感知（SOLO, SOLOv2），视觉表征 (DenseCL, EVA)，视觉上下文学习(Painter, SegGPT)，多模态表征(EVA-CLIP, Uni3D)，多模态上下文学习(Emu, Emu2)。入选Google PhD Fellowship、国家海外高层次青年人才。

讲者2：曾爱玲

讲者：曾爱玲
题目：以人为中心的多模态感知、理解和生成
摘要：从任意视频中捕捉和理解富有表现力的人体动作是计算机视觉、人机交互和可控生成中的基本且重要的任务。与面向专业用户的高成本可穿戴动作捕捉设备不同，我们为每个输入图像或视频的用户开发了一系列无标记动作捕捉技术，这也使得动作配对数据可扩展、低成本和多样化。在本次演讲中，我将重点介绍如何构建大规模以人为中心的数据和基准，包括 i) 从互联网数据中自动注释多模态数据，如动作、图像、视频、文本、音频等，ii) 通过 LLM 从视频中理解人体动作，iii) 可控的 2D 到 4D 以人为中心的生成。
简介：曾爱玲博士是腾讯的高级研究科学家。此前，她于IDEA研究院领导以人为中心的感知、理解和生成研究团队。她在香港中文大学获得博士学位。她的研究目标是在可扩展的大数据上构建多模态类人智能代理，尤其是用于捕捉、理解、交互和生成人类、动物和世界的运动的大型运动模型。她在 CVPR、ICCV、Neurips 等顶级会议发表了三十多篇论文，她的一篇长期时间序列预测的第一作者论文入选 AAAI 2023 影响力前三名论文。她的研究成果已转移或用于应用产品，例如用于可控生成的 ControlNet ComfyUI 中的 DW-Pose 和用于监控区域的 AnyVision 中的 SmoothNet。

讲者3：荆炳义

讲者：荆炳义
题目：如何实现大模型训练中的数据自适应选择？
摘要：目前，大模型的训练通常需要使用互联网级别的海量数据。然而，Scaling Law 表明，数据质量对模型性能至关重要。因此，如何从这些海量数据中筛选出高质量的样本成为一个关键问题。为了解决这一挑战，我们从底层训练框架出发，重新设计了数据在训练过程中的生命周期。这使得我们能够在训练的不同阶段引入不同的数据选择策略，以便模型能够选择最适合的数据。此外，我们还实现了一种基于学习的探索策略，使得模型能够自主进行数据筛选，从而进一步提高训练效率和模型性能。这些改进优化了数据筛选过程，同时为大模型训练提供了更加灵活和智能的解决方案。这项研究不仅在理论上具有重要意义，也在实际应用中展现出巨大的潜力，为未来的大规模模型训练开辟了新的方向。
简介：荆炳义，南方科技大学统计与数据科学系讲席教授，国家特聘专家，国家自然科学奖二等奖, 教育部长江学者讲座教授，教育部高等学校自然科学奖二等奖，美国统计学会会士 (ASA Fellow)，数理统计学会会士 (IMS Fellow)，国际统计学会当选会士 (ISI Elected Member)。中国现场统计学会多元分析委员会理事长，先后分别担任Ann Appl Probab, JBES, 《中国科学》等七家国际学术期刊副主编。研究兴趣包括：概率统计、计量经济、网络数据、强化学习、及生物信息等领域。在 Annals of Statistics, Annals of Probability, Journal of American Statistical Association, Journal of Royal Statistical Society Series B, Biometrika, Journal of Econometrics, Journal of Business and Economic Statistics, Bioinformatics，Journal of Machine Learning Research，《中国科学》，NeurIPS等顶级期刊及顶会发表论文110余篇。与产业界合作紧密,于2023年获华为“火花奖”。

讲者4：王本友

讲者：王本友
题目：长上下文的多模态大模型
摘要：多模态大模型的开发高度依赖数据和应用场景。本报告将首先介绍我们在数据方面的探索，包括高质量通用多模态图文对齐数据集 ALLaVA-4V、通用长尾视觉知识的补充数据集 Iceberg-500K 以及医学多模态知识数据集。此外，我们将探索具有更长上下文的多模态大模型，并介绍我们团队进行的相关基准 MileBench。此外，我们将讨论我们的长上下文多模态大模型的细节及其在处理更长上下文中的高分辨率图像和长视频中的应用。
简介：王本友，香港中文大学（深圳）数据科学学院助理教授，深圳大数据研究院研究科学家。迄今，他曾获 SIGIR 2017 最佳论文提名奖、NAACL 2019 最佳可解释 NLP 论文、NLPCC 2022 最佳论文、华为火花奖、腾讯犀牛鸟项目等。他还曾担任 NLPCC 2023 宣传主席、EMNLP 2023 网站主席。他带领的研究团队开发的大模型包括医疗健康垂直领域大模型华佗 GPT、阿拉伯语大语言模型AceGPT。

大模型智能体专题论坛

主持人：陶重阳

简介：陶重阳，北京航空航天大学副教授。2020年获得北京大学理学博士学位，后加入微软工作，历任博士后研究科学家和高级研究科学家。研究方向为自然语言处理和信息检索，主要关注语言模型、对话系统、高效知识检索等领域，参与了微软小冰(Rinna)、必应聊天助手、必应生成/搜索模型以及WizardLM系列模型的研发。曾在 ACL、EMNLP、AAAI、ICLR、SIGIR、TOIS等国际会议及期刊上发表论文70余篇。曾获得NLPCC杰出论文奖、AI 2000学者称号，担任 KDD、EMNLP、CCKS 等国内外学术会议的领域主席。

讲者1：陈旭

讲者：陈旭
题目：基于大语言模型智能体的用户行为模拟
摘要：近年来，Human-centered AI受到了学术界和产业界的广泛关注，该领域的应用如推荐系统、社交网络等给人们的生活生产带来了极大地便利。然而，一直以来，制约该领域发展的关键问题之一是如何获取高质量的用户行为数据。在本次报告中，汇报者将从LLM-based Agent的角度分享缓解该问题的思路，并介绍其团队研发的基于大语言模型的用户行为模拟智能体RecAgent。该工作模拟了用户在推荐系统，社交网络中的多种行为，每个用户是一个Agent，不同Agents可以在模拟环境中自由对话，发帖，搜索，自我进化等。汇报者将详细介绍RecAgent的设计初衷、结构特点、使用方法以及实验评测等。最后，汇报者将介绍RecAgent对未来Human-centered AI领域的潜在影响。
简介：陈旭，中国人民大学高翎人工智能学院准聘副教授。博士毕业于清华大学，于2020年加入中国人民大学。他的研究方向为大语言模型，因果推断，推荐系统等。曾在TheWebConf、SIGIR、ICML、NeurIPS、ICLR，AIJ、KDD等著名国际会议/期刊发表论文80余篇，Google Scholar引用5800余次，入选斯坦福大学全球前2%顶尖科学家榜单。他曾共同主持开发推荐系统工具集“伯乐”、带领团队撰写大语言模型智能体综述《A Survey on Large Language Model based Autonomous Agents》，并构建基于LLM Agent的用户行为模拟环境“RecAgent”。他的研究成果曾荣获TheWebConf 2018最佳论文提名奖，CIKM 2022最佳资源论文奖，SIGIR-AP 2023最佳论文提名奖，以及AIRS 2017最佳论文奖。他也曾荣获CCF自然科学二等奖（排名第二），ACM-北京新星奖，以及CAAI-BDSC 社会计算青年学者新星奖等荣誉。他主持/参与十余项国家自然科学基金、科技部以及企业合作项目，相关成果在多家企业落地，荣获华为“创新先锋总裁奖”，以及华为优秀校企合作项目等。

讲者2：李鹏

讲者：李鹏
题目：面向开放域的大模型智能体
摘要：大模型为人工智能的发展带来颠覆式创新，如何利用好大模型以解决开放域问题成为大模型发展下一阶段的关键议题。近期的学术研究和工业实践表明，以大模型为基础的智能体（简称大模型智能体）是将大模型推向开放域的重要技术路径，具有重大研究和应用前景。本报告将围绕大模型智能体走向开放域所面临的主要挑战、创新思路和未来发展方向进行分享交流。
简介：李鹏，清华大学智能产业研究院副研究员/副教授，主要研究兴趣包括自然语言处理、预训练语言模型、跨模态信息处理、大模型智能体等，在人工智能重要国际会议与期刊发表论文90余篇，曾获ACL 2023杰出论文奖，曾在多个国际上深具影响力的榜单上超过Google Research、OpenAI等团队获得第一名，主持科技创新2030重大项目课题、国家自然科学基金面上等科技项目，曾任NAACL、COLING、EACL、AACL 等重要国际会议领域主席等。研究成果在百度、腾讯微信等千万级日活产品中获得应用并取得显著成效，获得中国中文信息学会钱伟长中文信息处理科学技术奖一等奖。

讲者3：高莘

讲者：高莘
题目：基于大模型的智能体工具学习
摘要：基于大规模语言模型的智能体研究是近期自然语言处理领域中一个新兴的研究方向，该领域的研究也推动了通用人工智能的进一步发展。本报告将围绕语言模型智能体的工具调用能力构建展开，探讨语言模型智能体工具使用基础能力的构建方法以及如何将其应用在更多的下游任务上。
简介：高莘，电子科技大学计算机学院特聘研究员、博士生导师，主要研究方向为预训练语言模型、大模型智能体和工具学习；在国际顶级会议期刊发表文章40余篇；目前担任中国中文信息学会青年工作委员会委员、信息检索专委会通讯委员，担任若干顶级会议的领域主席和高级程序委员会委员。

讲者4：钱忱

讲者：钱忱
题目：大模型智能体协同的缩放法则初探
摘要：当代大模型驱动的群体协同旨在创建一个多智能体协作运营的虚拟团队，使其在人类用户提出具体任务需求下，通过智能体交互式协同来自主生成完整的解决方案。这一方向实现了高效和经济的推理过程，为自动化解决复杂问题提供了全新的可能性，相关技术有望有效地将人力从传统繁重劳动中解放出来，实现“智能体协助人类工作”的美好愿景。本报告将基于大模型多智能体协同的关键技术，介绍交互、协同、演化等方面的技术进展，并初步探究协同缩放法则，以指导构建高效的多智能系统。
简介：钱忱，清华大学软件学院博士，现于清华大学自然语言处理实验室（THUNLP）担任博士后，清华大学水木学者，主要研究方向为预训练模型、自主智能体、群体智能；合作导师为孙茂松和刘知远教授，曾在ACL、SIGIR、ICLR、AAAI、CIKM等人工智能、信息管理、软件工程等相关的国际学术会议或期刊上以第一作者身份发表论文数篇。在群体智能方面，主持发布了大语言模型驱动的群体协作框架ChatDev、群体共学习范式Co-Learning、群体协同网络MacNet，并参与构建了用于任务完成和社会模拟的多智能体平台AgentVerse。其中ChatDev在世界影响力最大的开源平台 Github 上获得超过两万颗星标，受到了国内外众多知名学者和企业的高度评价，人工智能和机器学习领域国际上最权威的学者吴恩达于2024年3月发表智能体方面的最新趋势与洞察，把ChatDev作为唯一代表性案例进行了重点论述。

讲者5：张海峰

讲者：张海峰
题目：大语言模型驱动的博弈智能体
摘要：博弈智能体是人工智能发展的一条重要线索。大语言模型的出现，为博弈智能体的构建提供了一条新的思路。以大语言模型为基座，在其上嫁接专用博弈策略，可以较低成本地构建具备一定通用能力的博弈智能体。报告将介绍该方法在星际争霸、足球游戏、社会经济等虚拟和现实博弈场景下的应用探索。
简介：张海峰，中国科学院自动化研究所副研究员，群体决策智能团队负责人。于北京大学计算机系获得本科、博士学位，曾在英国伦敦大学学院(UCL)从事博士后研究工作。致力于多智能体和强化学习的学术研究和平台研发工作，相关论文发表在ICML、IJCAI、AAAI、AAMAS、《软件学报》等国内外知名学术会议、期刊，主持研发中科院自动化所“及第”智能体博弈平台(www.jidiai.cn)，承担国家自然科学基金、科技部“新一代人工智能”重大项目、中国科学院先导A类项目等多项课题，所做研究应用于博弈智能体、油气产业链调度、铁路运行图调整等多个领域。

讲者6：张宁豫

讲者：张宁豫
题目：从知识编辑的视角看智能体进化
摘要：大模型智能体进化是一个通过不断积累和优化知识来提高智能体能力的过程。在这一过程中，智能体通过交互、学习和自我改进，逐步完善其知识库和决策能力。本次报告将从知识编辑的视角来阐述智能体记忆更新和能力进化的过程，并介绍符号和参数知识增强智能体的相关工作，最后展望通过知识编辑操作不断修正和扩展智能体的知识结构，实现在动态环境中保持适应性和灵活性，更好地理解复杂任务提升问题解决能力。
简介：张宁豫，浙江大学副教授，浙江大学启真优秀青年学者，在高水平国际学术期刊和会议上发表多余篇论文，6篇入选Paper Digest高影响力论文，1篇被选为Nature子刊Featured Articles。主持国家自然科学基金、计算机学会、人工智能学会多个项目，获浙江省科技进步二等奖，IJCKG最佳论文/提名2次，CCKS最佳论文奖1次, 担任ACL、EMNLP领域主席、ARR Action Editor、IJCAI 高级程序委员，主持开发大语言模型知识编辑工具EasyEdit (1.6k)。