Transformer - 搜索 News

2 天

作为北京大学人工智能研究院和集成电路学院的双聘助理教授，李萌既懂 AI 又懂芯片。近日，他和北京大学集成电路学院王源教授及团队设计出一款面向 Transformer 模型的高效数据流架构——HG-PIPE，并在可编程阵列逻辑（FPGA，Field ...

1 天

补齐Transformer规划短板又不放弃快速思考，田渊栋团队的Dualformer融合 ...

近期有研究表明，如果将系统 2 过程整合进 Transformer 和大型语言模型中，就能显著提升它们的推理能力。尽管如此，如果模型只是模仿系统 2 式的思考过程，那就需要远远更高的计算成本才能完成，同时响应速度也会大幅减慢。

4 小时

像人脑一样思考！Meta 新模型Dualformer融合快慢思维，推理能力大幅提升

Meta 的 FAIR 团队最近推出了一款名为 Dualformer 的全新 Transformer 模型，该模型模仿人类的双重认知系统，能够无缝整合快速和慢速推理模式，在推理能力和计算效率上取得了显著突破。传统的 Transformer ...

腾讯网1 天

昔日王者RNN模型卷土重来，欲与Transformer一较高下

当年Jürgen ...

7 天

清华与微软联手打造Differential Transformer，让 AI 的注意力更集中，精度 ...

Intel最新提交的Linux内核补丁显示，明年的下一代低功耗处理器PantherLake，也就是酷睿Ultra300系列之一，将会集成第五代NPU，或者叫NPU5.0。按照Intel的说法，MeteorLake集成的是第三代NPU，算力11.5TO ...

8 天

这篇论文非常火！差分Transformer竟能消除注意力噪声，犹如降噪耳机

机器之心报道编辑：PandaTransformer 的强大实力已经在诸多大型语言模型（LLM）上得到了证明，但该架构远非完美，也有很多研究者致力于改进这一架构，比如机器之心曾报道过的 Reformer 和 ...

腾讯网4 天

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到 ...

本文深入探讨Transformer模型中三种关键的注意力机制：自注意力、交叉注意力和因果自注意力。这些机制是GPT-4、Llama等大型语言模型（LLMs）的核心组件。通过理解这些注意力机制，我们可以更好地把握这些模型的工作原理和应用潜力。我们不仅会讨论理论概念，还将使用Python和PyTorch从零开始实现这些注意力机制。通过实际编码，我们可以更深入地理解这些机制的内部工作原理。通过这种结 ...

11 天

何恺明新作发布：异构预训练Transformer引领AI视觉学习新时代

何恺明的异构预训练Transformer是一种新型的深度学习模型，旨在有效整合多种数据来源，实现更加全面的视觉理解。这一模型突破了传统Transformer在图像识别中的局限性，通过多模态数据的结合，使得AI可以更加精准地分析和理解复杂的视觉信息。

11 天

何恺明新作出炉！异构预训练Transformer颠覆本体视觉学习范式，AI性能 ...

近些年来NLP和CV领域的突飞猛进，让我们看到了彻底改变机器学习领域的一个历史教训：对大规模、高质量和多样化数据进行预训练，可以带来通常优于特定模型的通用模型。 HPT全称为Heterogeneous Pre-trained Transformers ...

腾讯网4 天

NeurIPS 2024 | Transformer长度外推，全新位置编码DAPE大幅提升模型性能

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@ ...

15 天

MIT团队新型LFM模型燃爆AI界：挑战Transformer架构的长效解决方案

LiquidAI的成立团队来自于MIT计算机科学与人工智能实验室，他们以第一性原理为出发点，致力于构建下一代高效、强大的通用人工智能系统。LiquidAI联合创始人包括在液态神经网络领域享有盛誉的科学家和研究员，他们的研究方向涵盖稳定的机器学习模型、 ...

8 天on MSN

谷歌推出 AI 架构 Transformer 新方法：突破长文本处理，

IT之家 10 月 9 日消息，科技媒体 marktechpost 昨日（10 月 8 日）发布博文，报道称谷歌公司推出了选择性注意力（Selective Attention）方法，可以提高 Transformer ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果