Skip to content

生成式 AI 术语表

Published: at 03:22 PM

生成式 AI 为技术领域增加了一整套新术语,与每一项新兴和不断发展的技术一样,这些术语的含义存在相当多的混淆,以下是我不断演变的术语列表,将帮助你更好地理解它们的真正含义。

  • Ada - 指在训练期间可以自我优化的自适应模型,如 AdaM。

  • Attention Mechanism - 神经网络中的一个组件,特别是在 Transformers 中,它允许模型专注于输入数据的特定部分。例如,在将句子从英语翻译成法语时,注意力帮助模型在生成每个法语单词时集中于相关的英语单词。

  • Autoencoder - 一种用于无监督学习的神经网络类型。它将输入数据编码为压缩表示,然后解码它以重新创建输入。

  • Backpropagation - 一种优化算法,用于通过调整权重来最小化神经网络中的错误。

  • Beam Search - 一种在序列预测任务中使用的搜索算法。它跟踪固定数量的最佳部分解决方案(序列),以提高生成序列的质量。

  • Bias (in AI) - 当 AI 模型由于其训练数据而存在预先存在的倾向时。它可能导致不公正或不正确的预测。

  • CLIP - Contrastive Language-Image Pre-training - 一个用于 steer 图像生成的图像+文本模型。

  • Denoising - 一种模型从数据的损坏版本中重建其输入数据的过程。这帮助模型学会专注于基本特征并忽略噪声。

  • Diffusion model - 通过迭代精炼从噪声转换为图像的生成模型。

  • Embedding - 单词或项的向量表示,编码语义含义。用于向语言模型输入单词。

  • Epoch - 训练期间整个数据集通过神经网络的一次完整循环。

  • Few-shot learning - 使用小型标记数据集使模型适应新任务或数据集。

  • Fine-tuning - 取一个预训练模型并在特定数据集上进一步训练它以使其适应特定任务的过程。

  • Generative Adversarial Network (GAN) - 一种 AI 模型类型,由两个网络组成——一个生成器和一个判别器。生成器试图产生假数据,而判别器尝试区分真实和假数据。随着时间的推移,生成器提高其产生可信假货的能力。

  • Generative AI - 用于创建内容(如图像、文本或音乐)的 AI 技术子集。它们从现有数据中学习以生成新的、以前未见过的样本。

  • Gradient Descent - 一种优化算法,通过迭代调整模型参数来最小化损失函数。

  • Hallucination - 在 AI 语言模型如 GPT 的语境中,幻觉指的是模型产生不准确或不是基于其训练数据的信息。它”想象”出不真实的细节。

  • Latent Space - 在生成模型的上下文中,是数据表示生活的抽象空间。生成模型经常在此空间导航和采样以产生新内容。

  • Loss Function - 一个数学函数,量化 AI 模型的预测与实际数据的匹配程度。训练旨在最小化此值。

  • Neural Network - 受生物神经网络结构启发的计算系统。它们由互连节点(神经元)的层组成,用于各种机器学习任务。

  • Overfitting - 当 AI 模型过于好地学习训练数据,包括其噪声和异常值,使其在新未见数据上表现不佳时。

  • Perplexity - 衡量语言模型预测样本的好坏程度。较低的困惑度表示更好的生成能力。

  • Prompt engineering - 设计提供给语言模型的文本文本以产生更好的结果。

  • Prompt Templates - 结构化提示或给模型的问题以指导其响应。例如,不只是问”告诉我关于 X,“提示模板可能是”提供 X 的简要总结高亮其 main features。”

  • RAG (Retrieval-Augmented Generation) - 结合检索(搜索数据库信息)和生成(产生新内容)的方法。例如,当被问及一个问题时,RAG 可能搜索相关段落然后使用这些段落生成连贯的答案。

  • Regularization - 训练中防止过拟合的技术,如向损失函数添加惩罚。

  • Small Language Model - 小语言模型是在有限文本数据上训练的机器学习模型,用于生成自然语言。小语言模型与大型模型相比具有更受限的知识容量,但仍然可以产生令人惊讶的连贯文本。小语言模型的主要优势是它们需要更少的计算来训练和运行,使它们更易于访问和更易于在应用中部署。

  • Softmax - 一个将分数转换为概率的函数,用于语言模型中的下一个词预测。

  • Temperature - 从模型输出分布采样时可以作为参数调整的值。较高的温度使输出更随机,而较低的温度使其更确定。

  • Token - 文本中的个体语义单元,如单词、子词或标点符号。语言模型输入和输出的内容。

  • Tokenization - 将输入数据(如文本)转换为更小块的过程,如单词或子词。例如,句子”ChatGPT is great!”可能被标记化为 [“ChatGPT”, “is”, “great”, ”!”]。

  • Top-k Sampling - 一种解码策略,其中模型从最可能的 k 个候选者中选择下一个单词/词元而不是考虑整个词汇。

  • Top-p Sampling (Nucleus Sampling) - 另一种解码策略,其中模型从累积概率 p 之和的缩小词汇中选择下一个单词/词元,确保比 Top-k 采样更多的随机性。

  • Transfer Learning - 一种机器学习方法,其中预训练模型针对稍微不同的任务进行微调。这通常减少所需的数据量和训练时间。

  • Transformer Architecture - 一种使用自注意力机制对输入数据不同加权的神经网络架构,在自然语言处理任务中特别成功。像 GPT(Generative Pre-trained Transformer)这样的模型使用这种架构。

  • Transformer - 一种基于注意力机制的网络架构类型,通常用于像 GPT-3 这样的大语言模型。

  • Variational Autoencoder (VAE) - 一种向编码过程添加概率约束的自动编码器类型,使模型生成新的、类似的数据。

  • Vector Database - 向量数据库是优化用于存储和查询对象的向量表示的数据库系统,如数字嵌入。它提供跨高维向量数据的高效相似性搜索。

  • Zero-shot, One-shot, Few-shot Learning - 模型用很少或没有示例接受训练或执行任务的方法。在”zero-shot”场景中,模型没有看到任务的任何示例。在”one-shot”中,它只看过一个示例,在”few-shot”中,示例数量有限。


Previous Post
深入循环神经网络
Next Post
服务即软件