当前快报:比Transformer快4成！Meta发布全新Megabyte模型，解决算力损耗硬伤

首页 > 中国IT产业网 > 应用 > > 内容页

当前快报:比Transformer快4成！Meta发布全新Megabyte模型，解决算力损耗硬伤

时间：2023-05-30 21:48:23 来源：引领外汇网

Transformer最近几年已然成为大模型的标配，而Meta团队开发的一款Megabyte模型声称能解决Transformer的硬伤，速度还要快四成。

【资料图】

编者按：本文来自微信公众号新智元（ID：AI_era），编辑：Joey，创业邦经授权转载，头图来源摄图网

Transformer无疑是过去几年内机器学习领域最流行的模型。

自2017年在论文「Attention is All You Need」中提出之后，这个新的网络结构，刷爆了各大翻译任务，同时创造了多项新的记录。

但Transformer在处理长字节序列时有个硬伤，就是算力损耗严重，而Meta的研究人员的最新成果则可以很好地解决这一缺陷。

他们推出了一种全新的模型架构，能跨多种格式生成超过100万个token，并超越GPT-4等模型背后的现有 Transformer架构的功能。

这个模型被称为「兆字节」（Megabyte），是一种多尺度解码器架构（Multi-scale Decoder Architecture），可以对超过一百万字节的序列进行端到端可微分建模。

论文链接：https://arxiv.org/abs/2305.07185

Megabyte为什么比Transformer强，就得先看看Transformer的不足之处在哪。

Transformer的不足

迄今为止几类高性能的生成式AI模型，如OpenAI的GPT-4、Google的Bard，都是基于Transformer架构的模型。

但Meta的研究团队认为，流行的Transformer架构可能正达到其阈值，其中主要理由是Transformer设计中固有的两个重要缺陷：

- 随着输入和输出字节长度的增加，自注意力的成本也迅速增加，如输入的音乐、图像或视频文件通常包含数兆字节，然而大型解码器 (LLM)通常只使用几千个上下文标记

- 前馈网络通过一系列数学运算和转换帮助语言模型理解和处理单词，但在每个位置的基础上难以实现可扩展性,这些网络独立地对字符组或位置进行操作，从而导致大量的计算开销

Megabyte强在哪

相比Transformer，Megabyte模型展示了一种独特的不同架构，将输入和输出序列划分为patch而不是单个token。

如下图，在每个patch中，本地AI模型生成结果，而全局模型管理和协调所有patch的最终输出。

首先，字节序列被分割成固定大小的patch，大致类似于token，这个模型由三部分组成：

研究人员观察到，对于多数任务而言字节预测都相对容易（如完成给定前几个字符的单词），这意味着每个字节的大型网络是不必要的，并且可以使用更小的模型进行内部预测。

这种方法解决了当今AI模型中普遍存在的可扩展性挑战，Megabyte 模型的patch系统允许单个前馈网络在包含多个token的patch上运行，从而有效解决了自注意力缩放问题。

其中，Megabyte架构对长序列建模的Transformer进行了三项主要改进：

- 二次自注意力（Sub-quadratic self-attention）

大多数关于长序列模型的工作都集中在减轻自注意力的二次成本上，而Megabyte将长序列分解为两个较短的序列，即使对于长序列也仍然易于处理。

- patch前馈层（Per-patch feedforward layers）

在GPT-3大小的模型中，超过98%的FLOPS用于计算位置前馈层，Megabyte每个patch使用大型前馈层，以相同的成本实现更大、性能更强的模型。在patch大小为P的情况下，基线转换器将使用具有m个参数的相同前馈层P次，兆字节可以以相同的成本使用具有mP个参数的层一次。

- 解码中的并行性（Parallelism in Decoding）

Transformers必须在生成期间串行执行所有计算，因为每个时间步的输入是前一个时间步的输出，通过并行生成patch的表示，Megabyte允许在生成过程中实现更大的并行性。

例如，具有1.5B参数的Megabyte模型生成序列的速度比标准的350MTransformer快40%，同时在使用相同的计算量进行训练时还能改善困惑度。

Megabyte远远优于其他模型，并提供与在子词上训练的 sota 模型竞争的结果

相比之下，OpenAI 的GPT-4有32,000个token的限制，而Anthropic的Claude有100,000个token的限制。

此外，在运算效率方面，在固定模型大小和序列长度范围内，Megabyte比同等大小的Transformers和Linear Transformers使用更少的token，允许以相同的计算成本使用更大的模型。

总之，这些改进使我们能够在相同的计算预算下训练更大、性能更好的模型，扩展到非常长的序列，并提高部署期间的生成速度。

未来将会如何

随着AI军备竞赛进行地如火如荼，模型性能越来越强，参数也越来越高。

虽然GPT-3.5在175B个参数上进行了训练，但有人猜测功能更强大的GPT-4在1万亿个参数上进行了训练。

OpenAI的CEO Sam Altman最近也建议转变战略，他表示公司正在考虑舍弃对庞大模型的训练，而专注于其他性能的优化。

他将AI模型的未来等同于iPhone芯片，而大多数消费者对原始技术规格一无所知。

Meta的研究人员相信他们的创新架构来得正是时候，但也承认还有其他优化途径。

例如采用修补技术的更高效的编码器模型、将序列分解为更小块的解码模型以及将序列预处理为压缩token等，并且可以扩展现有Transformer架构的能力以构建新一代模型。

前特斯拉AI总监Andrej Karpathy也在这篇论文中发表了看法，他在推特上写道：

参考资料：

https://www.artisana.ai/articles/meta-ai-unleashes-megabyte-a-revolutionary-scalable-model-architecture

关键词：

上一篇 不锈钢304的硬度标准（304不锈钢材硬度(HRC)是多少）|环球快报 下一篇 最后一页

精彩推荐 +更多

智慧中小学课堂怎么复制链接？智慧中小学课堂怎么交作业的？ [2023-05-05]
国网电力app如何查异地出租房每日电量？网上国网交电费怎么领红包？ [2023-04-28]
电网头条app怎么发布作品？电网头条怎么看直播？ [2023-04-21]
美丽修行app怎么发布优惠？美丽修行app怎么看订单？ [2023-04-21]
惠普打印机怎么连接wifi?惠普打印机怎么连接电脑? [2023-04-21]

最近更新 +更多

当前快报:比Transformer快4成！Meta发布全新Megabyte模型，解决算力损耗硬伤

比Transformer快4成！Meta发布全新Megabyte模型，解决算力损耗硬伤,...

过去，现在，未来——复旦举办报告会，洞察全球产业发展|当前热闻

过去，现在，未来——复旦举办报告会，洞察全球产业发展,复旦,汽车...

不锈钢304的硬度标准（304不锈钢材硬度(HRC)是多少）|环球快报

1、304不锈钢硬度标准：布氏硬度：≤187HB;洛氏硬度≤90HRB;维氏硬...

每日快报!经智长三角（260期）丨G60科创走廊联推科创生态建设长三角促外贸稳规模提质量

21世纪经济报道记者卜羽勤实习生卓皙雯上海报道上周，G60科创走廊九...

兴业证券：给予美团-W(03690.HK)“买入”评级目标价184.93港元

兴业证券5月30日发布公告。投资建议：外卖业务持续受益于线下复苏及...

让过期药“有处可去”，苏州太平街道社区卫生服务中心设药品回收点_环球热头条

“放在家里占位子，扔了又怕‘害人’，有地方能回收太好了！”近日...

天天简讯:大反转！日本断供芯片设备后被现实教训，不料美国企业却对华倒戈当前速看世界消息|环球快讯

日本孤注一掷，玩了一把大的。结果，却让全世界目瞪口呆。这事还得...

当前快播：如何发芽芝麻|播资讯观察

(相关资料图)(相关资料图)卓越的多功能性和营养价值使芝麻芽成为一...

金秀县：金秀镇科技特派员参加“热爱科学、崇尚科学”活动周活动|环球快报世界快资讯

5月25日上午,小雨过后,金秀县小广场热闹非凡,由县经贸局牵头组织的...

天天观点：长春麻将小鸡飞蛋什么意思_长春麻将小鸡飞蛋

(相关资料图)1、小鸡飞蛋是长春麻将在基础上增添了特殊牌型“小鸡飞...

世界观点：产品策略｜产品概念不要拍脑袋想，讲讲FAB吧

今天，又是给客户提报产品概念的一天，90分钟的内容。前提是该产品S...

V观财报｜值得买去年净利8400万，子公司却要花7亿建“基地”！深交所：有必要？

V观财报｜值得买去年净利8400万，子公司却要花7亿建“基地”！深交...

天天快消息！【柳州微信影响力排行榜】如何抓住你的目标用户？

▲承接原“微评柳州”，打造新“i柳州”欢迎关注“柳州微信公众号影...

【当前独家】四川能投发展(01713)：拟委任孙会为监事

智通财经APP讯，四川能投发展(01713)发布公告，由于工作安排变动，...

空洞骑士怎么在酸水游泳-酸水游泳方法

　　空洞骑士这款游戏玩法非常丰富，很多玩家想知道空洞骑士怎么在...

全球今日报丨美国枪击事件接连发生枪支暴力难消

根据美国枪支暴力档案网站的统计数据，截至当地时间29日，今年以来...

云南建投混凝土(01847)将于7月25日或之前派发末期股息每股0.0331元全球播资讯

智通财经APP讯，云南建投混凝土(01847)发布公告，将于2023年7月25日...

壁花少年epub（壁花少年百度云）

今天小编岚岚来为大家解答以上的问题。壁花少年epub，壁花少年百度...

环球快看：天津到北京多少公里

驾车路线：全程约127 4公里起点：北京市1 北京市内驾车方案1)从起...

【环球新视野】气喘吁吁（qic）

1、QIC品牌是Qualityinnovatecharger的缩写。2、Quality：专注于充...

焦点热议:注册制提升市场效率并购重组展现新活力

今年以来144家上市公司推出重大资产重组方案全面注册制环境下，上市...

A股三大指数探底回升人工智能赛道持续大涨_每日快讯

A股三大指数今日探底回升，沪指涨0 09%，收报3224 21点；深证成指...

浙商银行: 浙商银行股份有限公司关于股东司法拍卖股份完成过户的公告

浙商银行:浙商银行股份有限公司关于股东司法拍卖股份完成过户的公告

大和：维持东方甄选“持有”评级 “美丽生活”单日GMV创新高

该行预计，即日起至6月18日，东方甄选旗下美妆、家纺、家电等品类特...

当前快播：如何发芽芝麻|播资讯

(相关资料图)(相关资料图)卓越的多功能性和营养价值使芝麻芽成为一...

天天简讯:大反转！日本断供芯片设备后被现实教训，不料美国企业却对华倒戈当前速看世界消息|环球快讯

日本孤注一掷，玩了一把大的。结果，却让全世界目瞪口呆。这事还得...

第八届中国机器人峰会成功举办百余项技术成果展示上千名行业精英共聚-世界观点-当前信息

“机器人”一词对于我们普通人来说似乎听起来有些科幻和遥远，但其...

快看点丨赣粤高速：公司管理层始终勤勉履职，2022年度营业收入再创新高，达到67.58亿元

赣粤高速(600269)05月30日在投资者关系平台上答复了投资者关心的问...

世界热点评！小三阳大三阳区别245（小三阳大三阳区别）

今天小编岚岚来为大家解答以上的问题。小三阳大三阳区别245，小三阳...

通胀压力持续消费品巨头雀巢(NSRGY.US)与联合利华(UL.US)更换CFO_世界观速讯

亚汇网获悉，雀巢(RGY U)和联合利华(UL U)都更换了各自的首席财务...