ChatGPT大模型对比,特点,影响
模型 发布年份 主要特点 影响和关注点
GPT-1 2018 11.7亿参数 - 引入了通过预测下一个词生成连贯文本的单向上下文建模 - 开创了NLP中预训练大语言模型和微调的时代 为NLP中的预训练和微调奠定了基础。
GPT-2 2019 15亿参数 - 改进了处理不同语言任务和生成连贯文本的能力 - 由于其潜在滥用风险引发了关切 引发了关于滥用风险的讨论,并发布了较小的开源模型。
GPT-3 2020 1750亿参数 - 在代码生成和文本完成等任务中表现出色 - 引起关注,但存在偶尔产生有害或不相关输出的问题 提出了上下文学习以避免遗忘并提高泛化能力。
CodeX 2021 基于GPT-3,专门用于软件开发 - 在科学论文和代码上进行训练以提高编码能力 引起了对编程领域潜在影响的关注,在软件开发社区引起了兴奋和担忧。
WebGPT 2021 与Bing搜索API的强大合作 - 结合搜索结果进行问题回答 - 利用用户行为数据来教授模型决策制定 在回答问题任务中与cGPT和iGPT有相似之处。
InstructGPT 2021 与用户互动对齐 - 三个关键组成部分:对齐、SFT训练和RLHF - 依赖监督微调和PPO强化学习 与cGPT共享核心技术,强调用户对齐。
cGPT 进行中 与InstructGPT并行 - 数据格式可能有所不同 与InstructGPT并行开发,数据格式有所不同。
ChatGPT1.0-4.0大模型参数对比
模型 参数量 能力 训练过程 特点
GPT-4 1-1.7万亿 文本和图像,文本输出(支持编程绘图) 未指明 在各项任务上表现更好GPT3.5,集合了WebGPT和CodeX的优点
GPT-3.5(InstructGPT和ChatGPT) 1750亿 文本输入/输出 Alignment概念,SFT,RLHF(RW+PPO) 指定的训练流程,Alignment概念
GPT-3 1750亿 文本输入/输出 提出in-context learning(0/few-shot) 对GPT-4的重要参考,影响了其发展
GPT-2 15亿 文本输入/输出 无监督预训练,面向任务的微调 泛化性有限,微调需要数据
GPT-1 11.7亿 文本输入/输出 无监督预训练,面向任务的微调 泛化性有限,微调需要数据
ChatGPT上下游产业链
chatgpt chatgpt