GPT-3 解读:提示词成为编程界面的时刻
GPT-3 是 1750 亿参数的自回归语言模型,仅靠提示词里的几个示例就能完成翻译、问答和推理任务,无需梯度更新或任务专用微调。
机构
推出 GPT、CLIP、DALL·E 等前沿系统的 AI 研究与部署公司。
GPT-3 是 1750 亿参数的自回归语言模型,仅靠提示词里的几个示例就能完成翻译、问答和推理任务,无需梯度更新或任务专用微调。
OpenAI 用人类反馈对齐 GPT-3,评估者更偏好 1.3B 的 InstructGPT 而非 175B 的 GPT-3——参数少 100 倍却更有用。
近端策略优化(PPO)用一个裁剪过的代理目标稳住策略梯度——几乎和 TRPO 一样稳,却简单得多——后来成了 ChatGPT、InstructGPT 背后 RLHF 的默认强化学习引擎。
OpenAI 的 Whisper 用 68 万小时网络音频训练单个序列到序列模型,零样本即可匹敌全监督系统,无需微调,并兼做翻译与语言识别。
CLIP 在 4 亿互联网图文对上训练图像与文本编码器,零样本就追平原始 ResNet-50 的 ImageNet 准确率,却完全没用它那 128 万张标注样本。
DALL·E 2 在论文里叫 unCLIP:先用 prior 把文本变成 CLIP 图像嵌入,再用扩散解码器渲染成图——几乎不损失真实感和文本匹配度,就换来了更高的多样性。
GPT-4 技术报告是一份成绩单,而非复现手册:多模态图文输入,模拟律师考试约前 10%,却不公开架构、数据与算力。