从统计到智能：NLP技术的三场革命

支持向量机（SVM）、循环神经网络（RNN）和大语言模型（LLM）是自然语言处理（NLP）发展历程中三个具有代表性的技术范式，它们在建模思想、结构特点、适用任务和历史阶段上存在显著区别。下面从区别对比和历史演进两个角度进行简要介绍。

一、三者的核心区别

维度	支持向量机（SVM）	循环神经网络（RNN）	大语言模型（LLM）
类型	传统机器学习算法（判别模型）	深度学习模型（序列模型）	超大规模深度学习模型（基于Transformer）
输入形式	需要手工特征工程（如TF-IDF、n-gram）	原始文本序列（自动学习表示）	原始文本序列（子词/词元级别）
是否能处理序列依赖	否（忽略词序）	是（通过隐藏状态记忆历史）	是（通过自注意力机制建模长距离依赖）
训练方式	监督学习，优化间隔最大化	监督学习，端到端训练	自监督预训练 + 有监督微调
典型任务	文本分类、情感分析（小数据场景）	机器翻译、文本生成、语音识别	对话系统、问答、代码生成、摘要等通用任务
参数规模	极小（仅支持向量）	中等（百万~千万级）	极大（十亿~万亿级）
可解释性	较高	低	极低（黑箱）

📌 例：判断“这部电影太棒了！”是正面还是负面？SVM需将句子转为向量（如“棒”=1，“差”=0），再分类。

突破：
- 引入端到端学习，自动从原始文本中学习词向量（如Word2Vec, 2013）；
- RNN（尤其是LSTM/GRU）能建模序列顺序，适用于翻译、生成等任务。
代表工作：
- Seq2Seq + Attention（2014–2015）推动机器翻译进步；
- LSTM在语音识别、文本生成中广泛应用。
局限：
- 训练慢，难以并行；
- 存在梯度消失/爆炸问题，长距离依赖仍难处理。

📌 例：RNN可理解“I love you”中“love”连接前后词，但若句子很长（如100词），可能遗忘开头信息。

关键转折点：
- 2017年：Transformer提出（《Attention is All You Need》），用自注意力机制替代RNN，实现高效并行与长程建模。
- 2018年：BERT（双向理解）和GPT（单向生成）开启预训练+微调范式。
特点：
- 在海量无标注文本上自监督预训练（如预测被遮盖的词）；
- 通过微调或提示（Prompting）适应下游任务；
- 模型规模持续扩大（GPT-3: 175B参数 → GPT-4o 等多模态模型）。
影响：
- 实现通用语言理解与生成；
- 推动ChatGPT、Claude、Qwen等对话AI爆发。

📌 例：LLM不仅能判断情感，还能解释原因、改写句子、写代码，甚至推理逻辑。

规则系统（1950s–1980s）
   ↓
统计方法 + SVM / HMM（1990s–2010s）
   ↓
深度学习 + RNN/LSTM + 词向量（2013–2017）
   ↓
Transformer + 预训练大模型（LLM）（2018–至今）

三者并非完全替代，而是在不同资源条件和任务需求下各有适用场景。例如，在小样本、高可解释性要求的任务中，SVM仍有价值；而LLM则主导了当前AI的主流发展方向。