作为北京大学人工智能研究院和集成电路学院的双聘助理教授,李萌既懂 AI 又懂芯片。 近日,他和北京大学集成电路学院王源教授及团队设计出一款面向 Transformer 模型的高效数据流架构——HG-PIPE,并在可编程阵列逻辑(FPGA,Field ...
近期有研究表明,如果将系统 2 过程整合进 Transformer 和大型语言模型中,就能显著提升它们的推理能力。尽管如此,如果模型只是模仿系统 2 式的思考过程,那就需要远远更高的计算成本才能完成,同时响应速度也会大幅减慢。
Meta 的 FAIR 团队最近推出了一款名为 Dualformer 的全新 Transformer 模型,该模型模仿人类的双重认知系统,能够无缝整合快速和慢速推理模式,在推理能力和计算效率上取得了显著突破。 传统的 Transformer ...
Intel最新提交的Linux内核补丁显示,明年的下一代低功耗处理器PantherLake,也就是酷睿Ultra300系列之一,将会集成第五代NPU,或者叫NPU5.0。按照Intel的说法,MeteorLake集成的是第三代NPU,算力11.5TO ...
机器之心报道编辑:PandaTransformer 的强大实力已经在诸多大型语言模型(LLM)上得到了证明,但该架构远非完美,也有很多研究者致力于改进这一架构,比如机器之心曾报道过的 Reformer 和 ...
本文深入探讨Transformer模型中三种关键的注意力机制:自注意力、交叉注意力和因果自注意力。这些机制是GPT-4、Llama等大型语言模型(LLMs)的核心组件。通过理解这些注意力机制,我们可以更好地把握这些模型的工作原理和应用潜力。 我们不仅会讨论理论概念,还将使用Python和PyTorch从零开始实现这些注意力机制。通过实际编码,我们可以更深入地理解这些机制的内部工作原理。 通过这种结 ...
何恺明的异构预训练Transformer是一种新型的深度学习模型,旨在有效整合多种数据来源,实现更加全面的视觉理解。这一模型突破了传统Transformer在图像识别中的局限性,通过多模态数据的结合,使得AI可以更加精准地分析和理解复杂的视觉信息。
近些年来NLP和CV领域的突飞猛进,让我们看到了彻底改变机器学习领域的一个历史教训:对大规模、高质量和多样化数据进行预训练,可以带来通常优于特定模型的通用模型。 HPT全称为Heterogeneous Pre-trained Transformers ...
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@ ...
LiquidAI的成立团队来自于MIT计算机科学与人工智能实验室,他们以第一性原理为出发点,致力于构建下一代高效、强大的通用人工智能系统。LiquidAI联合创始人包括在液态神经网络领域享有盛誉的科学家和研究员,他们的研究方向涵盖稳定的机器学习模型、 ...
IT之家 10 月 9 日消息,科技媒体 marktechpost 昨日(10 月 8 日)发布博文,报道称谷歌公司推出了选择性注意力(Selective Attention)方法,可以提高 Transformer ...