LLM发展关键术语:从"单词卡片"到"思维网络"

一、基础构建模块

1. 标量(Scalar)

  • 形象比喻:一个单独的数字,比如你的体重 65 kg,或者温度 23°C。
  • 数学概念? ✅ 是。标量是只有大小、没有方向的量。
  • LLM/编程中? ✅ 也常用。例如神经网络中的某个权重值就是一个标量。

2. 向量(Vector)

  • 形象比喻:一列有序的数字,比如你每天走的步数 [8000, 9500, 7200],或者空间中的箭头(有方向和长度)。
  • 数学概念? ✅ 是。向量既有大小又有方向,通常表示为一维数组。
  • LLM/编程中? ✅ 非常常见。词嵌入(word embedding)就是把一个词变成一个向量,比如 “猫” → [0.2, -1.3, 0.8, …]。

3. 矩阵(Matrix)

  • 形象比喻:一张表格,比如学生成绩表:

从Word2Vec到Seq2Seq

1. Word2Vec(2013)

核心思想

Word2Vec 是由 Google 在 2013 年提出的词嵌入(word embedding)方法,旨在将词汇映射为低维稠密向量,使得语义相近的词在向量空间中距离更近。

从统计到智能:NLP技术的三场革命

支持向量机(SVM)、循环神经网络(RNN)和大语言模型(LLM)是自然语言处理(NLP)发展历程中三个具有代表性的技术范式,它们在建模思想、结构特点、适用任务和历史阶段上存在显著区别。下面从区别对比历史演进两个角度进行简要介绍。

深度学习中的梯度消失与爆炸:从数学基础到现代解决方案

深度学习中的梯度消失与爆炸:从数学基础到现代解决方案

一、数学基础:梯度与反向传播

1.1 梯度的数学本质

在深度学习中,梯度是损失函数对参数的偏导数向量,表示了损失函数在参数空间中最陡峭的上升方向。对于神经网络中的参数 $\theta$,梯度定义为:

etcd authentication, how to deploy?

一、加载启动参数

1. 配置文件(Configuration file)

如果您提供了一个配置文件,那么配置文件中的设置将具有最高优先级。这意味着配置文件中的配置项将覆盖通过命令行标志和环境变量设置的所有配置。