大模型前沿技术报告系列直播课是由中国中文信息学会计算语言学专业委员会主办,并行科技承办的系列公益直播课,旨在分享大模型技术前沿学术成果和普及大模型算力应用,面向相关领域的科研工作者和高校师生展开。
大模型前沿技术报告系列直播课每月一场,每期邀请一位大模型领域的知名专家学者,进行约一小时的学术报告分享。直播课的播出平台为:视频号【并行科技】、B站【并行科技】,欢迎观看与交流。

特邀讲者
林洲汉,上海交通大学人工智能学院副教授、John Hopcroft计算机科学中心副主任,国家海外高层次青年人才、上海市浦江学者,前Facebook AI Research科学家。他的研究聚焦在自监督学习、语言模型的预训练任务和架构探索。他博士师从于深度学习领域图灵奖得主Yoshua Bengio,提出了self-attention雏形。近期的代表作有记忆-推理分离的新架构Memory Decoder、基于概率分布匹配的强化学习算法FlowRL等。他的谷歌学术总引用量11000余次,个人主页是hantek.github.io。担任ICLR、ACL、EMNLP、AAAI、AACL、COLING等会议的领域主席。
直播摘要
Decoder-only的Transformer是目前几乎所有预训练大语言模型所采用的默认模型架构。对于不同大小的模型,Scaling Law也成为这些模型所能达到的基础能力的可靠指引。与此同时,学术界的探索性研究已经出现了一些不同于经典Transformer的新的模型架构,这些架构能在不同方面优于经典Transformer。在这一讲座中,我们将从Scaling Law入手,结合相关公开发表的工作,介绍3个不同方向上的新模型架构探索。






