Ai theo llm fd

来自peacock
跳转到导航 跳转到搜索


基础模型Foundation model ChatGPT是基于一个称为GPT-3的Foundation model构建的下游应用。 Foundation model是通用的预训练语言模型,通过在大规模文本数据上进行无监督预训练获得强大的语言理解和生成能力。比如GPT-3就是一个典型的Foundation model。 而ChatGPT则是在GPT-3这样的Foundation model的基础上,使用针对对话的监督训练数据进行微调,从而使其专门适用于聊天对话场景。在微调过程中,会固定原来的预训练参数,只更新新增的对话任务相关的层。 简单来说:

  • Foundation model如GPT-3提供通用的语言处理能力
  • ChatGPT等应用对Foundation model进行任务细化,使其专门适用于特定场景

Foundation model是语言AI的基石,应用则在此基础上进行创新,使AI解决具体实际问题。两者的关系是:应用站在Foundation model的肩膀上,使得AI可以真正造福人类。

主要基础大语言模型

BERT

BERT全称为Bidirectional Encoder Representations from Transformers,是Google在2018年提出的语言表示模型。其应用双向Transformer编码器来预训练深度双向表示,可应用在各种自然语言处理任务中。优点是理解语言的上下文,为任务提供强大的语言理解能力。缺点是作为预训练模型,仍需要针对特定下游任务进行微调。BERT论文

GPT-3

GPT-3全称为Generative Pretrained Transformer 3,是OpenAI在2020年提出,参数量高达1750亿,是当时最大的语言模型。其以无监督方式通过预测文字进行预训练,可以生成连贯、语法正确的长文本。优点是强大的自然语言生成能力和对多任务的迁移学习能力。缺点是可能生成有偏见或无意义的文本。GPT-3论文

Turing-NLG

Turing NLG是微软于2020年提出的预训练语言生成模型,参数规模1700亿。其优化了GPT的训练技术,使模型对对话有更强的理解力。可应用于聊天机器人、文本生成等领域。优点是生成更合理连贯的对话。缺点是仍存在生成毫无意义文本的风险。Turing NLG介绍

Claude

Claude是Anthropic在2022年开源的大规模通用语言模型,参数达200万亿。其特点是训练过程加入了额外的监督,减少生成有害文本的风险。可广泛应用于自然语言处理任务。优点是更负责任地进行超大模型训练。缺点是训练成本极高。Claude官网 (edited)