重生之AI教父

CloseAI

首页 >> 重生之AI教父 >> 重生之AI教父最新章节(目录)
大家在看极品后妈 魔艳武林后宫传 正气寻妇录 好色小姨 华夏容不下他了把他丢到国外去 慕南枝 国家请我出狱,我的身份曝光了 都市流氓少爷 九龙至尊 恶魔逆位 
重生之AI教父 CloseAI - 重生之AI教父全文阅读 - 重生之AI教父txt下载 - 重生之AI教父最新章节 - 好看的都市言情小说

第233章 GPT的魅力所在

上一章书 页下一章阅读记录

从模式上说,Gpt显然要强很多酷很多。

因为bERt的模式需要对特定的任务做大量的调整工作,仍旧无法摆脱现有人工智能技术的困境。

它更像是一个特定任务上的工具,而非是一个智能。

不过直到chatGpt出现之前,几乎没有多少人相信过Gpt的模式真的能够更强。

因为一直以来,Gpt的性能效果都要比bERt方法差了不少。

“即便我将两个方法都做出来之后选择支持Gpt,恐怕也不会有多少人跟随我的脚步吧...他们大概只会觉得,我为了完成当年视频中的宣传效果,已经开始不尊重事实,无法正确看待自己的技术了。”

开源了t方法之后,孟繁岐所有的精力就完全扑在了一件事情上,那就是确立t方法后续路线的两种范式,bERt和Gpt上。

不过这一次,他倒没有着急着手写代码和论文,而是花了很多时间与辛顿师徒以及其他谷歌大脑的同事讨论其中的模式和原理。

“首先,你的这两个路线,肯定都是基于预训练大语言模型的,只是针对后续具体任务的方式不大一样。”

辛顿还是那么擅长把复杂的问题和区别迅速地归纳总结。

所谓的预训练,并不是什么难懂的概念。

所有的模型都是由大量的参数组成的,最初的模型,所有的参数都是依照一些简易的模式随机生成的,这个模型不具备什么能力。

利用这样白纸一张的模型进行人工智能任务的学习,叫做从头训练。

载入已经学到了知识的参数模型,而不是随机产生的参数,就叫做使用【预训练模型】。

比如孟繁岐最开始参赛千分类任务,就是从头训练。

在语言领域当中,模型通常很大,所需要的文本数据也非常之多。

不是每一个都像孟繁岐这样,拥有成百上千张的泰坦Z来做实验的。

倘若现在有一个人,想使用最新的t方法,在自己的任务上使用,比如他想要一个可以辨别哪些语句说了脏话的t方法模型。

那么他就有两个选择,一是随机生成参数,从头训练一个t方法模型。

二,他可以直接载入孟繁岐开源出来的模型参数,然后在自己的数据和任务上做一些细微的调整,俗称基于【预训练模型】的【微调】。

很显然,后者的效果要比前者要好太多太多。

因为前者是从一个什么都不会什么都不知道的模型,从零开始,t方法可不是什么容易训练的模型。

而后者,则是已经在非常庞大的语言数据上学过语言的一般性规律和知识的聪慧模型。

站在巨人的肩膀上,模型学起新东西来,事半功倍。使用少很多的成本就能够取得成效。

“没错,在预训练阶段,我们可以使用大量没有人工打过标签的文本数据,避免了对大量标注数据的依赖。预训练的模型能够抽取出更丰富的语义信息,提高模型在各种自然语言处理任务中的性能。”

这是不论在图像领域、文本领域还是语音领域都已经成为基础的模式。孟繁岐觉得这点没有什么值得讨论的,毫无争议。

“其中的区别就是,究竟是使用特定数据去【微调】模型,还是使用【指令】去提示模型。”孟繁岐如此说道,这两点,就是bERt和Gpt技术最大的区别所在了。

“通常来说,我们都会觉得应该做【微调】。预训练的模型学到的能力比较笼统,如果不专门针对某个任务去做【微调】的话,效果通常都会不大好。”伊利亚和阿里克斯等人都觉得这是常识。

不过如此做的话,显然就无法达到孟繁岐宣传的那种模式和效果了。

举一个很简单的例子,bERt和Gpt都在大量的文本上做了预训练,现在它们有任务了,任务就是判定社交平台上的用户们发言的时候有没有在开车。

那么bERt的模式是【微调】,我会收集一大堆开车搞颜色的文本,然后把它们一个个标注清楚,喂给bERt去训练。

“你小子看清楚了,这样的人就是在开车。”

bERt大量观看开车文本,然后微微调整自己的参数,进行了二次学习,针对性学习。

摇身一变,它就变成了文字交警,专门抓捕社交平台上那些在开车的文本和用户。

但是同时,由于做了针对性的训练,它在其他方面的能力会有所损失,受到一定的影响。

如果让它再做别的任务,就不大行。

而Gpt的模式,则是【指示】。

也就是说,模型不会做二次学习、针对性学习,它不改变自己的参数。

你要做的,是给它一个示范和引导。

“你看一下,帮我找找类似这样的句子。”

然后它就直接开展工作了。

下一次需要做别的任务的时候,bERt就很不方便,只能重新再做针对性学习。

Gpt则看一下新的指示和样例,又能直接再次工作。

这在目前的阶段来看,是非常不可思议的。

至少在场的诸位都觉得这么做是得不偿失,为了某种形式上的先进而损失了大量的性能,毫无必要。

“你这说的是不是太离谱了,你只是做一个示范,给模型一个提示,根本就没有修改过任何的模型参数,为什么它会有效果的提升?”听完孟繁岐对两种办法的形容之后,阿里克斯眉头紧皱:“结果如果真的是这样,那不是彻底成玄学了?”

孟繁岐心说可不么,这东西听起来是不可思议,但确实有效。

直到他重生前,这件事也没有一个特别靠谱的严肃解释。

而且这还不是最神奇的地方。

上面所说的那种,给Gpt一个例子,然后让他做这样的工作,叫做one Shot学习。

因为至少,你还让它看了一个例子,做了一次示范。

而在后来的chatGpt和Gpt-4的时候,更多的用户使用情况,是根本不会给模型任何例子的。

一般冲上来就直接布置工作了,比如“帮我翻译一下这个句子”又或者是“帮我以xx为题写一个xx”。

这种模式叫做Zero Shot学习,连例子都不用给,直接开干。

不管是分类文本,学习情感,写作文案还是翻译句子,不多废话直接安排,它自己就能看懂要做什么。

这才真的符合孟繁岐在人机大战的时候展现的那个概念视频,多种功能合而为一。

同时,它也是Gpt与bERt最为不同的地方,这种独特的使用方式使得chatGpt效果一旦达标之后,直接就成为了现象级的产品。

毕竟谁能拒绝这种十几合一的多面手智能小助手呢?实在太酷了。

“你规划中的bERt和Gpt,其实就是自编码和自回归。Gpt会更擅长生成任务,翻译和问答。bERt则会更加擅长重建文本,做语言的分类。”

辛顿仍旧非常老辣地抓住了两种方式的重点,但即便是这位AI老教父,他的预测终究还是出现了偏差:“我个人觉得,bERt的模式会强大很多,双向编码虽然牺牲了直接生成文本的能力,但对语言中各个词汇的理解会更加到位。Gpt只能单向预测下一个文本,它对句子之间的内在联系理解是不够到位的。”

孟繁岐觉得辛顿虽然支持bERt,但他的预测和分析并不能算错。

毕竟chatGpt经历了1、2、3、3.5四代迭代,才孕育出了chatGpt。

在亿级别的时代,Gpt需要四五倍的参数量才能够维持bERt级别的性能。

谁都没有想到,模型参数量到达接近两千亿的规模之后,竟然涌现出了这般神奇的超能力。

如果只从目前几千万甚至只有几百万的参数量规模去考虑的话,Gpt的实力的确很难去和bERt相比拟。

“我推荐伱还是把主要的精力放在bERt这种模式上,t方法的效果已经非常优秀了,在你加入了双向形式,专注编码之后,在很多特定的任务上都会有巨大的突破。”

孟繁岐只是笑了笑,没有争辩,作为重生人士,他清楚哪些建议比较有价值,哪些建议是被时代所局限了。

上一章目 录下一章存书签
站内强推我的钢铁萌心:以德皇之名 国家请我出狱,我的身份曝光了 我跟极品娘把缺德奶奶嫁出去了 你师兄都无敌了,你们拼什么命啊 末世重生后,我获得了无限空间! 快穿:病美人仙君又拿白月光剧本 我在无限游戏里捡男朋友 剑道第一魔 我,大明长生者,历经十六帝 开除学籍后,暗影灭考场震惊全国 从小卖铺发家,仇人坟头草三丈高 关东山,黑刀客 在诸天中无限穿越 都市极乐后后宫 疑云迷踪 四合院:虐爆众禽,我反手娶于莉 魔艳武林后宫传 神魔养殖场 山村情事 肥水不流外人田 
经典收藏人生得意时须纵欢 魔艳武林后宫传 绝色神雕 动漫之后宫之旅 后宫春春色 重生后,我成了省委书记的女婿 穿越大周 重生之奶爸的悠闲生活 道长我放不下她怎么办?她克你! 重生1960:从深山打猎开始逆袭! 震惊!四十才发现自己是天籁之音 从空间之力至诸天 重生明星音乐家 娱乐:让你去种地,你去烧大席! 四合院:这一家子惹不起 大夏镇夜司 一切从停职开始 从四合院到港岛大亨 完美世界 偏执总裁替嫁妻 
最近更新我的异能会修炼 全球无神 龙潜都市:我的六个绝世未婚妻 灵启:天赋觉醒之路 我什么时候犯罪了? 相亲后,我被阿姨和御姐盯上了 八零不当大冤种,一路逆袭你急啥 去逝的爹娘又回来了 抗日综剧:从亮剑开始 身为煤二代,系统却要我进娱乐圈 我的悲惨前生与重生 穿越六零:每天万倍奖励太爽了 我是青雀,在地球玩动漫并修仙 重回60:分家后,我靠打猎养活全家 婚宴当天加彩礼?我反手迎娶美女校花! 一念璁珑 穿越世子爷:开局镇压大将军母女 重生1959:岁月新章 时光之外的约定 重生,他逆天改命 
重生之AI教父 CloseAI - 重生之AI教父txt下载 - 重生之AI教父最新章节 - 重生之AI教父全文阅读 - 好看的都市言情小说