重生之AI教父

CloseAI

首页 >> 重生之AI教父 >> 重生之AI教父最新章节(目录)
大家在看春色田野 魔艳武林后宫传 正气寻妇录 春媚芳乡 绝品桃花命 我在废土世界扫垃圾 华夏容不下他了把他丢到国外去 带着空间穿七零,赚钱搞事样样行 我在长白山赶山狩猎 人在书中当反派:女主眼里大善人 
重生之AI教父 CloseAI - 重生之AI教父全文阅读 - 重生之AI教父txt下载 - 重生之AI教父最新章节 - 好看的都市言情小说

第207章 Attention is all you need

上一章书 页下一章阅读记录

原本发布t方法的论文名为《Attention is all you need》,意思是注意力机制就已经完全足够满足你的所有那些乱七八糟的技术需求了。

这项工作不仅引发了注意力技术的狂潮,顺带还引发了一波起名的狂潮。一时间,满大街都是xxx is all you need样式的名字。

这篇论文的一大意义是彻底抛弃了传统的循环网络和卷积网络结构,推陈出新,而是仅仅只使用注意力机制来处理机器翻译问题,并且取得了非常好的效果。

此前,人们一般都认为,注意力机制只能作为一种辅助道具,协助传统的网络来学习特征。

此后,这种全新的t方法迅速成为了语言类研究的重点方向,并且衍生出了bERt和Gpt两个经典的路线,后者更是进化出了chatGpt这个家喻户晓的新颖技术。

“注意力机制这个概念其实已经有了很多年了,差不多跟我的年龄一样大。”九几年的时候,注意力概念就已经在计算机视觉领域产生。

“它的概念也非常好理解,就像是直播中捕捉视觉的眼动仪,可以在直播画面上显示主播眼睛正在观察的地方。注意力机制的目的,就是为了让深度神经网络可以起到类似的效果,迫使神经网络去关注图片中的重要部分。”

比如孟繁岐最开始参加的千分类图像竞赛,人工智能模型或许可以正确地识别了这张图片的内容,但是真正让它做出这个判断的原因,却很可能大大出乎你的意料。

它识别出图像中的内容是猫,却非常有可能并不是因为它的【注意力】在关注图像中的猫,神经网络也许压根就没有在看图像中的猫这个生物,它在看别的。

或许是因为图像中有猫粮,或者图片的角落有【猫】相关的水印,又或者它可能是发现周边都是草地的图片内容往往是猫,因而一看到绿色的草地,就会做出类似的判断。

当然,更有可能的是出于某种人类无法理解和解释的原因。

虽然看的地方不对,结果却是正确的,这种现象很容易被研究者们忽略,是非常危险的。

这种缺陷可以通过大量的数据和各种其他技术手段去弥补。如果没有做好这些事情,模型在训练测试的时候往往会表现得非常出色,可等到实际投入使用的时候,就很可能出大问题。

“隔壁有同事在尝试把你写的注意力算子应用在高分辨率的图片上,以求降低计算成本。”

伊利亚分享了一下谷歌内部相关的情况:“我这边也在考虑,在循环网络或者长短期记忆网络上结合注意力,去处理翻译任务。”

注意力机制加上高清图片是比较合理的,通过注意力的筛查,可以剔除图片中不重要的部分,从而大大减少计算量。

孟繁岐微微点了点头,心中想着:“图片中的像素其实是非常冗余的,比如人类就可以轻松通过很局部的内容推测出物体的全貌,根据恺明后来的研究,甚至只需要原本百分之十几二十的像素,就可以完成图像的重构。”

“借助注意力来筛掉一部分像素,的确可以极大地减少计算量。使用这种办法,就可以在原本的速度下采用更高分辨率的图像,对关键的部分会处理得更加清楚,也就更加准确。”

孟繁岐认同这种做法,不过那是在图像任务当中了,在语言问题当中是大不一样的。人类的语言信息含量是非常高,密度也很大,即便只少一两成信息,甚是一两个字的差别,都很有可能会彻底改变句子的含义。

比如【我很喜欢】和【我不喜欢】,一字之差含义完全就不对了。因而类似的做法在语言上是不大行得通的。

不过可以像伊利亚一样,换一个做法去使用注意力机制。

“注意力机制如果应用在语言和文本当中,其实计算的就是一个【相关程度】,一个句子当中每一个词与其余词的相互关系和相关的情况。”

孟繁岐也没想到伊利亚的思路这么灵活,自己年初刚刚在搜索引擎中稍微利用了一下类似的概念,也没有写作论文,但伊利亚就很快捕捉到了这种技术在翻译类型任务上的可能性。

“天才人物对技术的嗅觉果然不得了啊...”孟繁岐有些感慨。

注意力机制毕竟二十年来都是图像领域的概念,它使用到语言文本里的形式是有很大变化的,这里面听起来很像很容易,但实际上的差距并不小,不是那么容易就能想明白的。

更别提用代码去实现了。

“如果使用注意力机制的话,为什么还一定非要使用旧的循环网络和长短期记忆不可呢?”

孟繁岐指出了这个思维惯性不合理的地方。

“传统的循环神经网络建构语言的时间序列信息,前面的词都要依次传递到后面的词上面,这种信息的反复堆积有些浪费,并且全都堆在一起,直觉上不好区分。”

“你是说文字的长期依赖问题?”伊利亚微微皱眉,捕捉到了重点:“不过长期依赖问题,已经相当程度上被循环网络的进化版本,长短期记忆方法又或者是各种门控制给解决了。”

“说是解决了,但实际上是减轻了,终究还是治标不治本,只是把症状压了下去。”

“那怎么办?难道干脆就不要了?”伊利亚没想那么多,随口问道。

问完却发现,孟繁岐正在似笑非笑地看着他。

“你是认真的?”伊利亚此前是被思维的惯性局限住了,根本没有想到注意力机制这样一个配菜,能干脆成为主餐,取代原本常用的网络结构。

现在孟繁岐已经暗示了他的想法,伊利亚自然也就开始认真地考虑这种操作的可行性。

“原本最常见的循环网络和卷积网络互有利弊,如果长度为n,前向的复杂度是o(n)级别,卷积是o(1)级别。但是卷积的每层复杂度要再根据卷积核的大小增加开销。”

“倘若用注意力机制去做,前向的复杂度是o(1),每层的复杂度则从o(nd^2)变为o(n^2d)。关键是,它可以并行了!”

分析复杂度分析到一半,伊利亚眼睛一亮,发现了重点。复杂度只是小事情,能够轻松并行才是最关键的地方。

传统的长短期和循环网络,可以处理时间序列信息,但总是需要根据之前的信息来推测当前的信息,依赖前置位的信息,因而无法并行。

简单点说,就是能并行的模型学不到长距离语言之间的联系,能学到的又没法并行。无法并行,用现在的设备自然就很难把语言模型做大。

“可目前最强力的模型都是带门控制,编码器加解码器的循环网络和卷积网络...难道我们真的一点旧有的技术都不使用吗?”

旁边有旁听的同事越听越觉得不靠谱了,这一步子跨得也有点太大了,咔,容易扯着蛋。

“它可以无视语言中,两个词之间的距离为它们单独建立相关性关系,单独这一点,就足以成为我们尝试的理由了。你们翻译任务当中,长句不也是相当令人头疼的问题吗?”

句子一长,就容易出岔子,加上目前的模型还喜欢持续累加各个词的信息。

机器看到中间,早就忘记前面是什么内容了。

“我是谁?我在哪?我在干吗?”

上一章目 录下一章存书签
站内强推我的钢铁萌心:以德皇之名 凡人修仙从炼药学徒开始 末世重生后,我获得了无限空间! 快穿:病美人仙君又拿白月光剧本 剑道第一魔 我,大明长生者,历经十六帝 开除学籍后,暗影灭考场震惊全国 我的供货商遍布三千小世界 军工科技 从小卖铺发家,仇人坟头草三丈高 关东山,黑刀客 洪荒最强幕后黑手 艳海风波 重生何雨柱离开四合院 风流皇太子 封神之土行大圣 带着空间穿越七零的美好生活 疑云迷踪 仙府:资质平平的我只好苟出长生 穿越大周 
经典收藏人生得意时须纵欢 逍遥人生 后宫春春色 重生后,我成了省委书记的女婿 重生之奶爸的悠闲生活 道长我放不下她怎么办?她克你! 重生1960:从深山打猎开始逆袭! 我都成顶流了,才来熟练度 掌握太阳的我,却是个武神 震惊!四十才发现自己是天籁之音 从空间之力至诸天 直播带娃:佛系奶爸天生叛逆 四合院:我把一大爷弄没了 娱乐之我怼哭了全世界 娱乐:让你去种地,你去烧大席! 晒太阳就变强,我横推万古 1986:东北旧事 四合院:这一家子惹不起 完美世界 偏执总裁替嫁妻 
最近更新八零不当大冤种,一路逆袭你急啥 抗日综剧:从亮剑开始 我的悲惨前生与重生 咚咚货郎来 亿万女总裁love爱上男保镖 万界副本:抽卡怎么全是阴间角色 世代大佬 极品太子在都市 重生:从中介小哥到商业大亨 我在幼儿园学修仙 长子:兄妹模拟我人生,泪崩 啊啊啊你又欺负我 总裁的贴身守护 表白被拒,我觉醒了系统! 达到好感度就能OO的游戏?! 心里住了个曹贼,修佛也没用 都市异能:笑闹幻星城 高冷女总裁追夫火葬场 修仙之都市重生 一穿就成了军中御姐 
重生之AI教父 CloseAI - 重生之AI教父txt下载 - 重生之AI教父最新章节 - 重生之AI教父全文阅读 - 好看的都市言情小说