语言大模型到代码大模型专题论坛

主持人：车万翔

简介：车万翔，哈尔滨工业大学计算学部长聘教授/博士生导师，人工智能研究院副院长，国家级青年人才，龙江学者“青年学者”，斯坦福大学访问学者。现任中国中文信息学会理事、计算语言学专业委员会副主任兼秘书长；国际计算语言学学会亚太分会（AACL）执委兼秘书长。承担国家自然科学基金重点项目、2030“新一代人工智能”重大项目课题等多项科研项目。著有《自然语言处理：基于预训练模型的方法》一书。曾获AAAI 2013最佳论文提名奖。负责研发的语言技术平台（LTP）已授权给百度、腾讯、华为等公司付费使用。2016年获黑龙江省科技进步一等奖（排名第2），2020年获黑龙江省青年科技奖。

主持人：李戈

简介：李戈，北京大学长聘教授，博士生导师，国家级高层次人才。长期聚焦于程序理解、程序生成、深度学习等技术的研究，是国际上最早从事“基于深度学习的程序理解与生成”研究并取得代表性成果的研究者，在多个国内外顶级会议与期刊发表相关论文50余篇，多篇论文被国际学者认是“开创性成果”，并被广泛引用，多次获ACM杰出论文奖。在软件与人工智能领域的多个国际会议担任程序委员会共同主席与PC。曾获教育部科技进步一等奖，CCF科技发明一等奖，北京市科技发明二等奖，中创软件人才奖。教学课程被首批认定为“国家级一流线下课程”和“国家级一流线上课程”，并多次获省部级教学奖。科研转化成果aiXcoder为航天领域的重大工程、金融与IT领域的多家大型企业及数十万国际开发者提供服务。

讲者1：刘辉

讲者：刘辉
题目：基于大模型的代码重构与优化
摘要：探讨大模型技术在代码优化方面的潜力与挑战，分析比较基于大模型的代码生成与代码优化的难点和差异，剖析大模型技术在代码优化领域的前景。以软件重构为例探索基于大模型的代码自动优化，探讨其中面临的关键技术挑战以及潜在的应对策略。
简介：刘辉，北京理工大学教授，CCF软件工程专委会秘书长。长期从事软件开发环境方面的研究工作，在ICSE、ESEC/FSE、ASE、ISSTA、IEEE TSE、ACM TOSEM等发表录用三十余篇学术论文，部分成果被Eclipse等主流IDE采纳集成。获得ESEC/FSE 2023杰出论文奖、ICSE 2022杰出论文奖、RE 2021最佳论文奖、IET Premium Award(2016) 。

讲者2：石琳

讲者：石琳
题目：基于交互式需求澄清的大模型代码生成
摘要：随着AI大模型能力的大幅提升，软件开发已经逐步走向新智能化时代。然而，开发者想写出一个清晰明确且全面的Prompt并不容易。Prompt中需求表述不明确导致大模型难以识别开发者背后的真实意图，这也是目前代码大模型在实践中遇到的巨大阻碍之一。本次报告将介绍我们在代码生成能力优化方面的最新研究，探索如何基于交互式需求澄清的方法，让代码大模型更好地理解用户意图，从而提升大模型的代码生成效果。
简介：石琳，北京航空航天大学教授，CCF高级会员。研究方向为智能软件工程，包括代码智能、智能需求工程、开源软件、可信AI等。曾在人工智能、软件工程领域的高水平国际会议IJCAI，ICSE，FSE，ASE等发表论文50余篇，三次获得杰出论文奖：ACM SIGSOFT 杰出论文奖（ASE21）、连续两次获国际需求工程大会杰出论文奖（RE21，RE20）。主持参与多项国家项目、头部重点企业合作项目。同时担任多个国际知名会议期刊包括ICSE、ASE、FSE、TOSEM期刊等审稿人。

讲者3：卢帅

讲者：卢帅
题目：可信代码生成
摘要：近年来，大语言模型已经展示出卓越的代码生成能力。然而，大模型并不能保证生成代码的准确性，尤其是对于较为复杂的算法实现或是工程代码，通常很难在一次尝试中生成正确的程序。为了解决这一问题，报告将介绍如何在大模型时代下引入软件工程领域的程序测试或形式化验证等方式，借助大模型强大的生成能力，一方面，让大模型自我验证，从而提高代码生成的可信度。另一方面，报告也关注如何利用大模型将程序的形式化验证过程自动化，从理论证明的角度验证代码可靠性。
简介：卢帅，微软亚洲研究院研究员，2021年毕业于北京大学，研究领域为代码智能和自然语言处理，致力于用深度学习技术实现软件开发自动化，赋能程序开发者。主要研究专注于代码自动补全、代码生成、程序语言预训练模型等，研究成果发表于NeurIPS, ICLR, ACL, ICSE, FSE等人工智能与软件工程学术会议，谷歌学术引用量三千余次。

讲者4：余涛

讲者：余涛
题目：OSWorld：在真实计算机环境中对开放式任务的多模态代理进行基准测试
摘要：由于视觉-语言模型（VLMs）的进步，自主数字代理的出现有望彻底改变人机交互，提高可访问性和生产力。这些多模态代理可以在不同环境中自主地进行复杂的推理、决策和多步骤行动计划。在本次演讲中，我将主要介绍OSWorld，这是一个专门设计用于推动开发能够在各种操作系统、界面和应用程序中执行广泛数字任务的代理的真实计算机环境。我将分享关于在OSWorld环境中执行开放式任务的尖端VLMs的见解。我还将介绍在这一方向上的一些其他最新工作，包括用于多样环境适应的指令微调检索器，以及通过工具集成增强LLM能力。演讲将以对这个迅速发展领域的当前和未来研究前景的探讨结束。
简介：余涛，香港大学计算机科学助理教授，主要研究方向是自然语言处理。他在耶鲁大学获得博士学位，并在华盛顿大学UWNLP担任博士后研究员。他的研究目标是构建能将语言指令转化为可在现实环境中执行的代码或动作的语言模型代理，包括数据库、网络应用和物理世界等。这是下一代自然语言界面的核心，可以通过对话与现实世界互动并学习，促进人类与数据分析、网络应用和机器人指令的交互。他曾获得谷歌研究学者奖和亚马逊研究奖。

讲者5：朱庆福

讲者：朱庆福
题目：多语言代码大模型
摘要：近年来，代码大模型技术蓬勃发展，带动了更多种类的编程语言数据向大模型的汇集，进而推动了代码生成任务由单编程语言向多编程语言的扩展。与此同时，由于全球95%人口的母语为非英语的自然语言，进一步将代码生成任务扩展至多自然语言同样至关重要。为此，本报告将对比代码大模型在多种编程语言、多种自然语言之间的性能差异，介绍提升低资源语言性能的方法，以及充分利用代码大模型的多语言能力提升下游任务表现的尝试。
简介：朱庆福，哈尔滨工业大学助理教授，美国加州大学圣塔芭芭拉分校联合培养博士。主要研究方向为自然语言处理，代码生成。在自然语言处理领域发表论文多篇，包括国际顶级会议ACL、AAAI、EMNLP等。主持及参与国家自然科学基金项目、科技创新2030-“新一代人工智能”重大项目多项。

讲者6：李力行

讲者：李力行
题目：基于aiXcoder代码大模型的智能化软件开发应用实践
摘要：软件研发领域的基于大模型的智能化，是当前软件开发技术与工具的关注热点和发展趋势，越来越多的企业对于基于代码大模型的智能化软件研发应用有强烈需求，但同时也面临诸多挑战。aiXcoder团队在该领域的探索和实践已有10年时间，是基于AI的智能化开发领域的开拓者和推动者。本报告将围绕基于大模型的软件开发技术与范型，汇报aiXcoder在代码大模型领域的最新进展，分享aiXcoder在代码大模型企业落地实践方面的一些探索与思考。
简介：李力行, aiXcoder首席运营官，北大/中科院数学所计算机软件与理论博士，曾任阿里优酷搜索团队算法负责人、医疗AI创业公司联合创始人及CIO，15年以上AI算法研究和团队管理经验。长期从事人工智能应用相关工作，当前负责aiXcoder智能化软件开发系统的产研和应用落地。