AI · 基础概念

神经网络 · 深度学习 · Transformer · GPT 四层嵌套关系——从最底层的"积木"到最尖端的"成品"

一句话:神经网络 ⊃ 深度学习 ⊃ Transformer 架构 ⊃ GPT。 四者是层层包含、逐步特化的嵌套关系,不是平行概念。 神经网络是积木,深度学习是用积木盖高楼的方法,Transformer 是一种革命性的新结构设计,GPT 是用这种结构盖出来的、最有名的一栋楼。

6 个关键数据

1943
神经网络元年
McCulloch & Pitts 提出人工神经元模型
2012
深度学习爆发
AlexNet 在 ImageNet 一举夺冠,标志 DL 时代开启
2017
TRANSFORMER 诞生
Google《Attention Is All You Need》
1.17亿
GPT-1 参数量
2018 · 验证预训练 + 微调范式
1750亿
GPT-3 参数量
2020 · 规模化涌现能力的临界点
1000×+
5 年参数膨胀
GPT-1 → GPT-3 增长约 1500 倍

嵌套层级图

外层"包含"内层,越往里越具体。下面这张图就是把四层关系的包含关系画出来:

LAYER 1 · 包含 神经网络 (NN) LAYER 2 · 特化 深度学习 (DL) LAYER 3 · 架构 Transformer LAYER 4 · 实例 GPT Decoder + 自回归预训练 ⊃ 特化 ⊃ 实例化
从外到内:包含 → 特化 → 架构 → 实例

逐层拆解

LAYER 1 · 积木

神经网络(Neural Network)

受生物神经元启发,由人工神经元(节点)可学习的权重连接组成的计算模型。是后面所有概念的物理基础

  • 核心三件套:权重 + 偏置(参数化连接强度)、激活函数(ReLU/Sigmoid 等,引入非线性)、前向/反向传播(用梯度下降调整权重)
  • 主要家族:MLP(多层感知机)、CNN(卷积神经网络,处理图像)、RNN(循环神经网络,处理序列)
LAYER 2 · 方法

深度学习(Deep Learning)

深度学习 = 多层("深"层)神经网络 + 大规模数据 + 强算力(GPU)的训练范式。

  • "深"指什么:隐藏层多(通常 ≥ 几层到上百层),能自动学习层次化特征——例如图像识别:边缘 → 纹理 → 部件 → 物体
  • 不是新算法:是当网络深到一定程度后、配合大数据和 GPU 才能跑得动的训练方法论
  • 历史转折:2012 年 AlexNet(深度 CNN)在 ImageNet 一举夺冠,深度学习时代正式开启

关系澄清:所有深度学习模型都是神经网络 ✅;但不是所有神经网络都是深度学习(浅层网络不算)✅

LAYER 3 · 架构

Transformer

2017 年 Google 在论文 Attention Is All You Need 中提出,专为序列数据设计的架构范式。

  • 自注意力(Self-Attention):让序列中任意两个位置直接"对话",彻底解决 RNN 长距离依赖衰减问题
  • 完全并行化:摆脱 RNN 必须按时间步串行计算的瓶颈,训练效率数量级提升
  • 位置编码(Positional Encoding):用额外向量补回"顺序"信息
  • 原始结构:Encoder–Decoder(编码器-解码器各 6 层堆叠),用于机器翻译

关系澄清:Transformer 不是一个具体模型,而是一类架构蓝图。基于它衍生出的著名模型:GPT(只用 Decoder)、BERT(只用 Encoder)、T5(完整 Encoder-Decoder)。

LAYER 4 · 实例

GPT(Generative Pre-trained Transformer)

OpenAI 出的生成式预训练语言模型系列。Transformer 架构最著名的具体实现。

  • 只用 Decoder 部分:去掉 Encoder
  • 因果掩码(Causal Mask):每个位置只能看到自己和之前的 token,保证"从左到右"生成
  • 预训练任务:自回归语言建模——预测下一个词
  • 规模演进:GPT-1(1.17 亿参数,2018)→ GPT-2(15 亿,2019)→ GPT-3(1750 亿,2020)→ GPT-4/4o/4.5(未公开,规模与多模态进一步扩大)

关系澄清:GPT = Transformer 架构 + 自回归预训练 + 海量数据 + 规模化(Scaling Law)。它的成功不仅靠架构,还靠缩放假设涌现能力

常见误区对照

误区正确认知
深度学习是新技术,跟神经网络无关本质就是"深层神经网络"的训练范式,是神经网络的一个子集
Transformer 是一个模型Transformer 是架构,GPT / BERT / T5 才是具体模型
GPT 就是 TransformerGPT 用的是 Transformer 的 Decoder 子集,并叠加了预训练 + 规模化
所有 AI 都是深度学习不是——符号主义、决策树、SVM 等属于传统机器学习
神经网络 = 大脑模拟只是受启发。人工神经元远比生物神经元简单,连"思考"都没有,只是矩阵运算 + 激活函数
一句话总结

神经网络是积木,深度学习是用积木盖高楼的建筑方法,Transformer 是一种革命性的新型结构设计,GPT 是用这种结构盖出来的、最有名的一栋大楼。