什么是生成式 AI 术语?
生成式 AI 术语包含用于描述可以创建新内容而不仅仅是分析现有数据的 AI 系统的专业词汇。这些术语涵盖模型架构(如 Transformers 和扩散模型)、训练技术(微调、迁移学习)、操作概念(tokens、embeddings、temperature)和评估方法。理解这些术语对于任何使用或部署生成式 AI 的人来说都是必不可少的,因为它提供了在这个快速发展的领域中讨论能力、限制和实施策略所需的精确语言。
生成式 AI 为技术景观增添了一整套新的术语,就像每个新的和不断发展的技术一样,对这些术语的含义存在相当多的混淆,所以这是我不断演变的术语列表,可以帮助你更好地理解它们的真正含义。
- Ada - 指的是像 AdaM 这样的自适应模型,可以在训练期间自我优化。
- Attention Mechanism - 神经网络中的一个组件,特别是在 Transformers 中,允许模型专注于输入数据的特定部分。例如,在将句子从英语翻译成法语时,attention 帮助模型在生成每个法语单词时集中在相关的英语单词上。
- Autoencoder - 一种用于无监督学习的神经网络。它将输入数据编码为压缩表示,然后解码它以重新创建输入。
- Backpropagation - 一种优化算法,通过调整权重来最小化神经网络中的误差。
- Beam Search - 序列预测任务中使用的搜索算法。它跟踪固定数量的最佳部分解决方案(序列),以提高生成序列的质量。
- Bias (in AI) - 当 AI 模型由于其训练数据而具有预先存在的倾向时。它可能导致不公平或不正确的预测。
- CLIP - Contrastive Language-Image Pre-training - 一个图像 + 文本模型,用于指导图像生成。
- Denoising - 模型被训练从其损坏版本重建其输入数据的过程。这帮助模型学习专注于基本特征并忽略噪声。
- Diffusion model - 通过迭代细化将噪声转换为图像的生成模型。
- Embedding - 单词或项目的向量表示,编码语义含义。用于将单词输入到语言模型。
- Epoch - 在训练期间将整个数据集传递通过神经网络的一个完整周期。
- Few-shot learning - 使用小型标记数据集使模型适应新任务或数据集。
- Fine-tuning - 获取预训练模型并在特定数据集上进一步训练以使其适应特定任务的过程。
- Generative Adversarial Network (GAN) - 一种由两个网络组成的 AI 模型——生成器和判别器。生成器尝试生成假数据,而判别器尝试区分真实和假数据。随着时间的推移,生成器提高其生成令人信服的假货的能力。
- Generative AI - AI 技术的子集,用于创建内容,如图像、文本或音乐。它们从现有数据中学习以生成新的、以前未见过的样本。
- Gradient Descent - 一种优化算法,迭代调整模型的参数以最小化损失函数。
- Hallucination - 在像 GPT 这样的 AI 语言模型的上下文中,hallucination 指的是模型生成不准确或不是基于其训练数据的信息。它”想象”不真实的事实。
- Latent Space - 在生成模型的上下文中,它是数据表示存在的抽象空间。生成模型通常在这个空间中导航和采样以产生新内容。
- Loss Function - 一个数学函数,量化 AI 模型的预测与实际数据的匹配程度。训练旨在最小化这个值。
- Neural Network - 受生物神经网络结构启发的计算系统。它们由互连节点(神经元)层组成,用于各种机器学习任务。
- Overfitting - 当 AI 模型学习训练数据太好,包括其噪声和异常值,使其在新的、未见过的数据上表现不佳。
- Perplexity - 语言模型预测样本的衡量标准。较低的 perplexity 表示更好的生成。
- Prompt engineering - 设计输入语言模型的文本提示以产生更好的结果。
- Prompt Templates - 给模型的结构化提示或问题,以指导其响应。例如,不是问”告诉我关于 X”,prompt template 可能是”提供 X 的简要摘要,突出其主要特征”。
- RAG (Retrieval-Augmented Generation) - 结合检索(搜索信息数据库)和生成(产生新内容)的方法。例如,当被问到一个问题时,RAG 可能搜索相关段落,然后使用这些段落生成连贯的答案。
- Regularization - 训练中用于防止过拟合的技术,如在损失函数中添加惩罚。
- Small Language Model - Small Language Model 是在有限文本数据上训练以生成自然语言的机器学习模型。与大模型相比,Small Language Model 具有更受限的知识容量,但仍然可以产生令人惊讶的连贯文本。Small Language Model 的关键优势是它们需要更少的计算来训练和运行,使它们更容易获得和更容易部署在应用程序中。
- Softmax - 将分数转换为概率的函数,用于语言模型中的下一个 token 预测。
- Temperature - 从模型输出分布采样时可以调整的参数。较高的 temperature 使输出更随机,而较低的 temperature 使其更确定性。
- Token - 文本中的单个语义单元,如单词、子词或标点符号。语言模型的输入和输出。
- Tokenization - 将输入数据(如文本)转换为 tokens 的过程,tokens 是较小的块,如单词或子词。例如,句子”ChatGPT is great!”可能被 tokenized 为 [“ChatGPT”, “is”, “great”, ”!”]。
- Top-k Sampling - 一种解码策略,模型从最可能的 k 个候选者中选择下一个单词/token,而不是考虑整个词汇表。
- Top-p Sampling (Nucleus Sampling) - 另一种解码策略,模型从累积概率 p 总和的缩小词汇表中选择下一个单词/token,确保比 Top-k 采样更多的随机性。
- Transfer Learning - 一种机器学习方法,预训练模型被微调用于略有不同的任务。这通常减少所需的数据量和训练时间。
- Transformer Architecture - 一种使用自注意力机制对输入数据进行不同加权的神经网络架构,在自然语言处理任务中特别成功。像 GPT(Generative Pre-trained Transformer)这样的模型使用这种架构。
- Transformer - 一种基于注意力机制的神经网络架构,常用于像 GPT-3 这样的大型语言模型。
- Variational Autoencoder (VAE) - 一种在编码过程中添加概率约束的 autoencoder,使模型生成新的、类似的数据。
- Vector Database - Vector Database 是一个数据库系统,优化用于存储和查询对象的向量表示,如数字 embeddings。它提供跨高维向量数据的高效相似性搜索。
- Zero-shot, One-shot, Few-shot Learning - 模型用很少或没有示例进行训练或执行任务的方法。在”zero-shot”场景中,模型没有见过任务的任何示例。在”one-shot”中,它只见过一个示例,在”few-shot”中,有限数量的示例。
FAQ
为什么生成式 AI 中有这么多专业术语?
生成式 AI 从多个研究社区出现——机器学习、自然语言处理、计算机视觉——每个都带来自己的术语。该领域的快速演变意味着新概念和技术不断出现,需要精确的语言来讨论它们。此外,Gen AI 跨越技术细节(架构、训练)和实际问题(提示、部署),为研究和应用创建词汇。理解这些术语对于有效沟通和实施至关重要。
初学者最先学习的最重要的 Gen AI 术语是什么?
从基础概念开始:LLM(Large Language Model)——文本生成模型如 GPT;Token——AI 处理的基本文本单元;Prompt——你给 AI 的输入;Embedding——含义的数字表示;Fine-tuning——为特定任务定制模型;Hallucination——当 AI 生成虚假信息时;RAG(Retrieval Augmented Generation)——结合搜索与生成;Temperature——控制输出随机性。这八个术语为理解更高级概念提供了框架。
训练、微调和提示之间的区别是什么?
训练是从头开始在大量数据集上构建模型——昂贵且耗时,需要大量计算资源。微调获取预训练模型并在特定数据上进一步训练以使其适应特定任务——比训练便宜得多。提示是提供指令和上下文以指导模型输出而无需任何重新训练——最便宜和最快的方法。大多数应用程序使用预训练或微调模型的提示,而不是从头开始训练。
tokens 如何与单词和字符相关联?
Tokens 是语言模型处理的基本单元,平均代表大约 3-4 个字符。一个单词可能是一个 token(“cat”)或多个 tokens(“understanding” 根据模型可能是 2-3 个 tokens)。句子是 token 序列,模型预测下一个可能的 token。token 计数很重要,因为它影响成本(API 按 token 收费)、上下文限制(模型有最大 token 窗口)和处理时间。理解 tokens 有助于优化提示和管理成本。
AI 生成中的 temperature 是什么意思?
Temperature 控制模型输出中的随机性。较低的 temperature(0.1-0.3)使模型更确定性和专注,只选择最可能的下一个 token——适合事实、一致的输出。较高的 temperature(0.7-1.0+)增加随机性,允许不太可能的 token 和更多创造性、多样化的输出——适合头脑风暴或创造性内容。Temperature 0 使模型基本上确定性,而较高的值产生更多多样性但也可能降低质量或连贯性。
为什么 AI 模型会产生幻觉,我如何减少它?
Hallucination 发生是因为生成式 AI 模型基于训练数据中的模式预测接下来可能是什么,而不是什么是事实真实的。它们不”知道”事实——它们生成听起来合理的文本。减少策略包括:使用 RAG 在提示中提供相关源上下文,指定模型应该引用源或在不确定时说”我不知道”,保持提示专注并避免推测,对事实内容使用较低的 temperature,以及实施检查输出与已知信息的验证系统。
GPT、BERT 和 Transformer 架构之间的区别是什么?
Transformer 是 2017 年引入的基础神经网络架构,使用注意力机制有效地处理序列。GPT(Generative Pre-trained Transformer)和 BERT(Bidirectional Encoder Representations from Transformers)都基于 Transformer 架构,但在设计上有所不同。GPT 是自回归的——它从左到右生成文本,基于先前的 tokens 预测每个 token。BERT 是双向的——它同时在两个方向上处理文本,使其更适合理解而不是生成。GPT 擅长文本生成;BERT 擅长文本分类和理解。
embeddings 如何使 AI 能够理解含义?
Embeddings 将单词、句子或图像转换为密集向量(数字数组),其中语义相似性转换为几何接近性。具有相似含义的单词具有相似的 embeddings——它们在向量空间中”接近”。这允许 AI 通过向量算术捕获关系,如”king” - “man” + “woman” ≈ “queen”。当你搜索 vector database 时,你正在查找具有相似几何位置的 embeddings,这对应于语义相似性。Embeddings 是 AI 能够理解超越精确关键词匹配的含义的原因。
About the Author
Vinci Rufus 是一位技术教育者,他相信清晰理解术语是有效 AI 实施的基础。他创建资源帮助开发者、领导者和组织建立实用的 AI 素养——将复杂概念翻译成可访问的解释而不失去技术准确性。Vinci 撰写关于 AI 概念、实际实施和新兴技术语言的文章。