热点论文

热点论文1:Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning

报告讲者:王乐安 博士研究生(北京大学)
报告题目:Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning
论文介绍:本文从信息流动的角度审视了上下文学习(In-context Learning),提出并验证了“标签词在上下文学习中起锚点作用”的假设。根据这个假设,在模型的浅层,大语言模型(LLMs)会将示例文本中的信息汇总到相应示例的标签上,而在模型的深层,大语言模型会进一步从这些标签中提取信息来完成最终预测。论文设计了测量显著性(saliency)的实验、阻断注意力的实验、测量注意力大小与分类结果相关性的实验,以验证这一猜想。进一步,基于这一假设,本文提出了三个潜在应用:锚点重加权(Anchor Re-Weighting)、仅含锚点的上下文压缩(Anchor-Only Context Compression)和基于锚点距离的错误诊断(Anchor Distances for Error Diagnosis)。这些应用展示了本文的分析结论的应用潜力,可以提高上下文学习的性能、效率,并在一定程度上解释上下文学习中出现的错误。该论文获得自然语言处理领域顶会EMNLP 2023的最佳长论文奖。
讲者介绍:王乐安,北京大学2023级博士研究生,研究兴趣包括大语言模型的可解释性、下游应用,以及模型架构改进。

热点论文2:MiniCPM-Llama3-V2.5:A GPT-4V Level Multimodal LLM on Your Phone

报告讲者:姚远 博士后(新加坡国立大学)
报告题目:MiniCPM-Llama3-V2.5:A GPT-4V Level Multimodal LLM on Your Phone
论文介绍:多模态大模型飞速发展,成为人工智能领域的研究热点,但其实用化发展仍面临诸多挑战,如幻觉多、多语能力弱、视觉分辨率受限、成本高等。本文提出 MiniCPM-V 系列高效端侧多模态大模型,聚焦于提升模型可用性,具有性能领先、行为可信、多语言支持、高清编码、计算高效等特点。本次报告将介绍 MiniCPM-V 的核心技术及应用效果,主要包括:(1)通过跨语言泛化技术支持多种语言;(2)通过多模态偏好学习技术减少模型幻觉;以及(3)通过高效图像编码技术提升性能,并支持任意分辨率高清图像编码。MiniCPM-Llama3-V 2.5连续一周在HuggingFace Trending排名第一,并在GitHub Trending和Papers With Code Trending Research排名第一。自2024年2月份发布以来,MiniCPM-V系列模型获得GitHub星标8000余次,模型下载60万余次,受到开源社区较好反馈。
讲者介绍:姚远,新加坡国立大学博士后,研究兴趣为多模态大模型和自然语言处理

热点论文3:OneBit: Towards Extremely Low-bit Large Language Models

报告讲者:徐玉庄 博士研究生(哈尔滨工业大学)
报告题目:OneBit: Towards Extremely Low-bit Large Language Models
报告摘要:ChatGPT问世以来,大语言模型(LLM)的强大能力给人留下深刻的印象。然而,LLM对计算资源的需求非常苛刻,这给部署和使用LLM带来十分明显的挑战。研究人员希望通过量化(把已有LLM的参数或中间计算结果用低位宽表示)等手段压缩模型的体积或计算量,进而实现在一般计算资源的平台上部署和使用LLM。此前的研究工作表明,可以在性能损失很小的前提下把模型权重量化到2bit。本文(OneBit)创新性地提出模型参数的1bit表示方法并通过量化感知知识蒸馏对模型进行低位宽压缩,首次实现了LLM权重的1bit量化。此外,本文还对超低位宽量化模型的能力进行了讨论。OneBit论文一经公开,就引起学术界和工业界同行的广泛关注与讨论,论文作者也受邀在多个知名论坛和媒体介绍该研究工作。本次报告将介绍1bit模型参数表示方法、超低位宽量化模型的能力损失,并分享此研究过程中的技术心得。
讲者介绍:徐玉庄,哈尔滨工业大学SCIR实验室2024级博士研究生,研究兴趣包括大语言模型高效部署、基于大语言模型的智能体和多语言处理。

热点论文4:Benchmarking Large Language Models in Retrieval-Augmented Generation

报告讲者:陈家慰 博士研究生(中科院软件所)
报告题目:Benchmarking Large Language Models in Retrieval-Augmented Generation
论文介绍:检索增强生成(RAG)是缓解大语言模型(LLM)幻觉的一种有效的方法,本文系统地研究了检索增强生成对大语言模型的影响,构建了一套大模型检索增强生成的评估体系。本文提出评估大模型检索增强生成的四种重要能力,包括噪声鲁棒性、拒识、信息整合和反事实鲁棒性。为此,本文构建了检索增强生成基准(RGB),用于英文和中文大语言模型的RAG评估。RGB根据上述的四个检索增强生成能力将基准内实例划分为四个单独测试集,并通过时事新闻语料构建而来。本文在RGB上评估了6个代表性大模型,分析其应用RAG时面临的挑战。评估结果显示,虽然LLMs表现出一定程度的噪声鲁棒性,但它们仍然在拒识、信息整合和处理错误信息方面遇到显著困难。上述评估结果表明,有效地将检索增强生成运用到大模型上还有相当长的路要走。本文发表于人工智能领域顶会AAAI 2024,构建的评估基准RGB被阿里通义千问等大模型选用为检索增强生成的评估基准。
讲者介绍:陈家慰,中科院软件所中文信息处理实验室2019级博士生。研究兴趣包括大语言模型的预训练、对齐以及检索增强生成。

热点论文5:AgentGym: Evolving Large Language Model-based Agents across Diverse Environments

报告讲者:奚志恒 硕博连读生(复旦大学)
报告题目:AgentGym: Evolving Large Language Model-based Agents across Diverse Environments
论文介绍:在这项工作中,我们迈出了构建具备在多样化环境和任务中自我进化能力的通用大型语言模型(LLM)智能体的第一步。我们确定了完成这一目标所需的三大关键要素:1)多样化的环境,供智能体探索和学习;2)一系列演示轨迹,为智能体提供基本能力和先验知识;3)一种有效且可扩展的进化方法。基于这些要素,我们提出了AgentGym,这是一个交互式框架,集成了多种环境和任务,用于进行广泛、实时、统一格式、并发的智能体探索。AgentGym还配备了一个数据库,其中包含了丰富的扩展指令、基准测试套件以及跨不同环境收集的高质量轨迹(AgentTraj)。此外,我们还开发了一种新的方法——AgentEvol,旨在探索智能体在不同环境和任务中的自我进化潜力。
讲者介绍:奚志恒,复旦大学自然语言处理实验室2022级硕博连读生,研究方向为大模型智能体、大模型推理、语言模型鲁棒性,以第一作者身份在ICML、ACL、EMNLP等国际会议上发表多篇论文。

热点论文6:CCL 2024评测热点报告

报告讲者:谭红叶 教授(山西大学)
报告题目:CCL 2024评测热点报告
论文介绍:CCL 2024评测专题聚焦于自然语言处理(NLP)领域前沿技术、实际应用落地以及社会服务应用等多个方面,推出了10项评测任务,集中于语义分析、古文智能处理、写作教学、常识推理、多模态理解等方面的评估,对推动自然语言处理技术的发展、促进学术交流、检验和推广研究成果、以及人才培养等方面具有深远的意义。本次评测活动得到了企业界和学术界的广泛关注与积极参与,奖金总金额达到 8.4 万元,吸引了2197支来自不同研究机构和企业的队伍踊跃报名。经过激烈的角逐,共有43支队伍脱颖而出获得奖项,同时,45篇高质量的学术论文被正式收录。本次评测专题的成功举办,显著提升了中国计算语言学大会的影响力,为我国自然语言处理技术的创新研发、应用推广以及国内外学术交流注入了强大的动力。我们相信,通过此类评测活动,将进一步推动我国自然语言处理领域的研究向更高层次、更广范围发展。
讲者介绍:谭红叶,山西大学计算机与信息技术学院教授、博士生导师。中国中文信息学会语言与知识计算专委会委员、医疗健康与生物信息处理专委会委员。主要研究方向为自然语言处理,主持国家自然科学基金项目3项,参与国家新一代人工智能重大项目、国家重点研发计划项目、863计划项目、国家自然科学基金重点项目多项。作为骨干成员撰写专著1部,获山西省科技进步一等奖与二等奖各1项,山西省教学成果特等奖1项。获山西省教授协会教学名师称号。