BERT与GPT基础(无图无公式逻辑版)
- 比尔·盖茨(微软前CEO)说:“这种AI技术出现的重大历史意义,不亚于互联网和个人电脑的诞生。”
- 马斯克(特斯拉CEO)说:“ChatGPT好吓人,我们离强大到危险的AI不远了。”
- 黄仁勋(英伟达CEO)说:“ChatGPT类似AI界的iPhone。”
火出圈的ChatGPT,仅仅是GPT的子功能之一,上线2个月MAU即突破1亿人,创下人类历史最快的记录,今天我们就从其最基础的逻辑展开,对其进行初探。
文章包含(1)NLP;(2)Transformer;(3)BERT、GPT两者对比;三个部分,没有复杂的公式、图表,仅探索逻辑,欢迎留言共同探讨。
NLP(Natural Language Processing,自然语言处理)
自然语言处理(NLP)是研究人与计算机交互的语言问题的一门学科。NLP任务(自然语言处理,AI的一个技术领域,即文本类的AI任务)的核心逻辑是一个“猜概率”的游戏。
比如说,“我今天被我老板___”,经过大量的数据训练后,AI预测空格处会出现的最高概率的词是“PUA了”,那么PUA就会被填到这个空格中,从而答案产生——“我今天被我老板PUA了”。
虽然非常不可思议,但事实就是这样,现阶段所有的NLP任务,都不意味着机器真正理解这个世界,他只是在玩文字游戏,进行一次又一次的概率解谜,本质上和我们玩报纸上的填字游戏是一个逻辑。只是我们靠知识和智慧,AI靠概率计算。
NLP问答分为2个层次:(1)语句通顺;(2)符合知识;比如人工智能回复:中国的首都是上海,就实现了语句通顺,但是不符合知识。
而在目前的“猜概率”游戏环境下,基于大型语言模型(LLM,Large Language Model)演进出了最主流的两个方向,即BERT(Bidirectional Encoder Representations from Transformers)和GPT(Generative Pre-trainning Transformers),可以看到这两个方向最后一个单词都是Transformers,因此我们先讲讲这个词背后的意思,再讲具体的BERT、GPT。
Transformer
2017年,谷歌提出用于序列翻译的Transformer模型,在该模型中创造性的使用完全的注意力模块替代循环神经网络(RNN)结构以实现注意力机制,Transformer一诞生就在自然语言处理(NLP)领域中取得了碾压性的好成绩。
注意力机制最大的特点,就是使得AI工作时会注重重点,它把每一个输出的语言以及预测的语言在进行翻译时,要提前对预测的语言说出前,要重新检验原来所有的词,而所有的词有的词是重视的,有的是不重视的,这就是注意力模型做出来的,而哪个重要不是人指定的,是自动学习的,引发了长句翻译等等的重大进展。
Transformer算是开了个好头,如果将Transformer也做预训练模型的基础架构,会不会“好上加好”?OpenAI和谷歌在2018年分别提出了GPT(Generative Pre-Training)模型和BERT(Bidirectional Encoder Representations from Transformers)模型,这两种模型都是基于Transformer预训练模型的典型代表,也是今天的主角。
BERT、GPT两者对比
通过BERT、GPT两者基础逻辑对比,其实非常好理解两者的差异。
在GPT3“出圈”之前,BERT是之前最流行的方向,几乎统治了所有NLP领域,并在自然语言理解类任务中发挥出色(例如文本分类,情感倾向判断等)。
而GPT方向则较为薄弱,最知名的玩家就是OpenAI了,事实上在GPT3.0发布前,GPT方向一直是弱于BERT的(GPT3.0是ChatGPT背后模型GPT3.5的前身)。
接下来看看BERT和GPT两者之间的差别:
BERT:双向 预训练语言模型+fine-tuning(微调)
GPT:自回归 预训练语言模型+Prompting(指示/提示)
BERT和GPT两者都是基于大语言模型的,他们在这一点上是相同的。他们的不同在于双向/自回归,fine-tuning/Prompting这两个维度,我们接下来会重点弄明白这四个术语。
BERT:双向。双向是指这个模型在“猜概率的时候”,他是两个方向的信息利用起来同时猜测。例如“我在__汉堡”,他在预测的时候,是同时利用“我在”+“汉堡”两端的信息来预测空格中的词可能为“吃”。有点像我们做英文的完形填空,通常都是结合空格两端的信息来猜测空格内应该是哪个单词。
GPT:自回归。自回归就是猜概率的时候从左往右做预测,不会利用文本中右侧的内容,和BERT相反。这就有点像我们写作文的时候,我们肯定是一边写一边想。
两者基本理念的区别导致BERT在之前更擅长自然语言理解类任务,而GPT更擅长自然语言生成类任务(例如聊天、写作文),但这些问题已经在GPT时代有所改变。
BERT的fine-tuning模式有两个痛点:
1. 我需要准备某个专业领域的标注数据,这个数据还不能少,如果太少,AI模型训练后就会形成过拟合(就是AI直接背下了整本习题册,册里的问题100%正确回答,但是稍微变换题型就GG)。
2. 我需要部署大语言模型,才能对他进行进行微调,那么部署大语言模型的成本,甚至进一步对他进行微调的能力,并不是所有公司都具备的。这注定是一个只有少数玩家能参与的游戏。
而Prompt模式恰恰相反,不需要太多的数据量,不需要对模型参数进行改动(也就意味着可以不部署模型,而是接入公开的大语言模型服务)。那么他的调试就会呈现百花齐放的姿态,玩家越多,创造力涌现就越猛烈。
从落地项目来看,BERT最有名的落地项目就是谷歌的AlphaGo了其可谓已经称霸了围棋界,而从去年底就火出圈的ChatGPT则是GPT的最有名的项目。
很明显前者AlphaGo的任务更加明确即下围棋,使用了8块英伟达A100芯片作为内核的“基建”超算平台,而后者GPT的任务则更加的“通用”即回答人类各种各样的问题,使用了高达10000块英伟达作为内核的“基建”超算平台,为什么GPT相较于BERT是具有颠覆性、突破性的呢?以至于
比尔·盖茨(微软前CEO)说:“这种AI技术出现的重大历史意义,不亚于互联网和个人电脑的诞生。”
马斯克(特斯拉CEO)说:“ChatGPT好吓人,我们离强大到危险的AI不远了。”
黄仁勋(英伟达CEO)说:“ChatGPT类似AI界的iPhone。”
这两者更进一步的分析,将在下一篇文章展开探索,欢迎关注我们。
参考文献:《万字长文:AI产品经理视角的ChatGPT全解析》
止于至善投资总经理、基金经理:何 理
2023年2月22日
——止于至善投资理念
欢迎关注微信公众号:止于至善投资,获取公司最新动态与观点。
风险提示及版权声明
本文全部内容,仅出于传播信息的需要,市场有风险,投资需谨慎。所述内容和意见仅供参考,并不构成对交易做出保证。投资者不应将以上观点作为投资决策的唯一参考因素,亦不应以本意见取代自己的判断。在任何情况下,不对任何人因阅读以上内容所引致的任何损失负任何责任。
本文内容是作者对公开信息数据的整理与分析,不保证文中观点或陈述不会发生任何变更,本文对这些信息的准确性及完整性不作任何保证。如需转载,请注明来源与作者,保证文章内容完整性,并自负相关责任。