💬 什么是ChatGPT
关于ChatGPT的几个基础事实:
- ChatGPT的官方网址是:https://chat.openai.com/chat 。该界面是一个非常简洁的对话工具,你可以输入任何你想聊天或咨询的问题与其对话;
目前并没有官方的ChatGPT应用程序。任何声称与ChatGPT相关的app、电脑客户端或其他网站可能都是基于OpenAI的API接口开发的,或者是虚假的,请注意甄别;
ChatGPT由OpenAI公司开发,要使用它,你需要拥有一个OpenAI网站的账户。想要注册账户,你需要满足两个条件:首先,你需要通过科学上网🪜访问他们的网站 https://openai.com/; 其次,在注册过程中,你需要使用非中国大陆的手机号接收验证码完成确认(这一步可能会困扰许多人,我将在下一篇文章中详细介绍如何操作);
ChatGPT隶属于OpenAI公司,该公司成立于2015年。近期,微软投资了数十亿美元,成为其大股东。因此,你可能会在互联网上看到许多关于微软与这个产品的相关信息,例如他们于3月16日发布的办公智能助手CoPilot。
接下来进入正题聊聊到底什么叫ChatGPT,拆解下他们是怎么被做出来的。
一、ChatGPT简介
首先,ChatGPT 是由 OpenAI 开发的自然语言处理(NLP)模型,基于 GPT-3 及之后的架构,并专门优化了与人类用户的交互对话。我们可以将其分解为:
Chat:聊天,意味着模型主要用于与人类用户进行互动对话。
GPT:代表 "Generative Pre-trained Transformer",即模型的核心架构。
G(Generative):生成式,表示模型能生成新内容,如文本、答案等。
P(Pre-trained):预训练,意味着模型在大量文本数据上进行了预训练,能理解和生成自然语言。
T(Transformer):转换器,一种用于自然语言处理任务的神经网络架构。它在2017年的一篇论文中被提出,被OpenAI应用于GPT模型。该架构具有强大的并行处理和注意力机制。
综上,ChatGPT 是一个生成式预训练转换器模型,经过优化实现与人对话。目前,谷歌的BERT模型也使用了Transformer架构,这是当前NLP领域最主流的模型架构,也是大型模型训练的基础。
二、GPT模型的发展历程
GPT模型自2018年问世以来,参数规模不断扩大。最新的GPT-4比第一代参数量提升了近4000倍(1.2亿vs5000亿),这使得GPT模型的能力显著提升。现在的成果让研究人员惊艳,有点像大脑中神经元数量增加后,某种智能和意识涌现出来。作为参照,人类大脑的神经元突触连接数量约为100万亿-1000万亿,老鼠约为450亿-600亿,狗大约是10万亿。
GPT:于2018年6月发布,是OpenAI基于Transformer架构的首个模型,采用生成式和预训练方法。它在自然语言理解和生成任务上取得了显著成功。
GPT-2:于2019年2月发布,模型参数从上一代的1.2亿增长到了15亿。这使得GPT-2在多种NLP任务上取得显著性能提升,如阅读理解、机器翻译和摘要生成等。
GPT-3:于2020年6月发布,第三个版本,拥有超过1750亿参数,比第一代提高了1000倍。此时,GPT模型在各种自然语言处理任务上表现已表现出色,并能生成极具说服力的文本。GPT-3的一个重要特点是它能在没有显式微调的情况下,通过调整输入和输出格式实现零样本学习(zero-shot learning)和少样本学习(few-shot learning)。正因如此,GPT具备了从零开始与人进行对话的能力,第一个版本的ChatGPT就是基于GPT-3。
GPT-3.5:于2022年11月发布,是GPT-3的改进版本,模型参数规模达到了2000亿。这个版本的GPT使用了强化学习从人类反馈中学习(RLHF),在各种自然语言处理任务上都有所提升,特别是在对话方面,它能生成更自然、更流畅、更有趣的文本。
GPT-4:于2023年2月发布,是目前最先进的自然语言生成模型,拥有超过5000亿参数。这个版本的GPT最核心的新增能力是支持多模态输入和输出(如图像、音频、视频等),这是个革命性的变化,相当于经过改造,ChatGPT能「听见」和「看见」现实世界。
总结一下,GPT模型从第一代到现在的GPT-4,经历了多次升级,参数规模不断扩大。这使得GPT模型的能力得到显著提升,能应对更多复杂的自然语言处理任务,为人们提供更智能、更自然的交互体验。
三、ChatGPT的应用场景简述
事实上,其实任何与「语义理解」和「语言生成」有关的所有事情都能靠ChatGPT得到很大程度的解决:
「语义理解」:比如最简单的翻译(需要理解词语的意思),智能客服(需要理解客户的请求),文章总结,会议纪要等等;
「语言生成」:这是指你的结果是需要它帮你生成一段文字或代码,这方面它能处理得很好,比如回答问题,撰写文章,写一个网页的代码等等。
不过像我们前面的GPT-4有多模态的能力,他还能理解和生成视频、图片、音频等,这本质上也是因为这些内容在计算机存储的时候就是0和1,所以他是能把这些内容解构为类似语言的东西实现对应能力的。OpenAI官网上也提供了一些他们能做什么的参考,可以看看。