AI
[TOC]
AI
By:weimenghua
Date:2023.08.13
Description:AI 产品
参考资料
语言模型
GPT 的实现原理
GPT(Generative Pre-trained Transformer)是一种基于Transformer架构的预训练语言模型。下面是GPT的主要实现原理:
- Transformer架构: GPT基于Transformer模型,该模型由Vaswani等人于2017年提出。Transformer使用了注意力机制,可以在输入序列中捕捉全局依赖关系,而无需依赖循环神经网络(RNN)或卷积神经网络(CNN)。它包括编码器和解码器,但在GPT中主要使用了编码器部分。
- 自注意力机制(Self-Attention): 这是Transformer的关键组件。自注意力机制允许模型在处理输入序列时关注输入中的不同位置,而不是像传统的固定窗口大小的滑动窗口一样。这有助于捕捉长距离的依赖关系。
- 多头注意力(Multi-Head Attention): 为了增加模型的表达能力,多头注意力允许模型使用多个注意力头来学习不同的关注权重。
- 位置编码: 由于Transformer没有固有的序列顺序概念,位置编码被引入以为模型提供关于单词在序列中位置的信息。
- 层标准化(Layer Normalization): 在每个子层输出后应用层标准化,有助于训练过程的稳定性。
- 预训练和微调: GPT是一个预训练语言模型。在预训练阶段,模型通过大规模的文本语料库学习语言的统计结构。在微调阶段,模型根据特定任务的标注数据进行微调,以适应具体应用领域的需求。
- 层级结构: GPT采用了多层的Transformer结构,通常包括数十甚至数百个Transformer层,使得模型可以学习复杂的语言表示。
- 掩码机制: 在预训练中,为了确保模型只能依赖之前的词来预测下一个词,使用了遮蔽机制,即将未来的词掩盖掉。
- 位置嵌入: 在输入词嵌入中加入位置嵌入,以区分不同位置的词。
总体而言,GPT通过Transformer的结构和预训练的方式,使得模型能够捕捉自然语言中的复杂语法和语义关系。这种通用的预训练框架使得GPT在各种自然语言处理任务中取得了良好的性能。
ChatGPT 是 OpenAI 公司推出的聊天机器人模型,Chat是聊天,GPT的全称:“GenerativePre-trainedTransformer”,翻译为中文为“生成型预训练变换模型”。
特征工程
特征工程是指在机器学习和数据分析任务中,对原始数据进行转换、提取和选择,以创建更有信息量和预测能力的特征集合的过程。
特征工程的目的是通过对数据进行适当的预处理和特征构建,使得机器学习算法能够更好地理解数据并提取出相关的模式和信息。好的特征工程可以帮助提高模型的性能、降低过拟合的风险,并提供更好的解释性。
特征工程的步骤通常包括以下几个方面:
- 数据清洗:处理缺失值、异常值、重复值和噪声等问题,确保数据的质量和一致性。
- 特征转换:对原始数据进行转换,使其符合模型的假设或要求。常见的转换包括对数变换、标准化、归一化和离散化等。
- 特征构建:根据领域知识和数据的特点,通过组合、衍生或交互等方式创建新的特征。这可以帮助模型更好地捕捉数据中的非线性关系和交互效应。
- 特征选择:从原始特征中选择最相关和最具有预测能力的特征,以减少维度和冗余,并提高模型的泛化能力。常用的特征选择方法包括统计方法、正则化和基于模型的方法等。
- 特征缩放:对特征进行缩放,使其具有相似的尺度和范围,以便模型能够更稳定地学习和进行预测。常见的缩放方法包括标准化和归一化。
知识碎片
AI 产品网址
模型托管
AI 工具集
AI 对话聊天
AI 编程工具
AI 搜素引擎
其它
- MidJourney,需要先注册 Discord,MidJourney 官方使用手册
- Perplexity
- Pika
- DreamStudio
- Prompt
- sora
- ChatGPT插件:Sider、Glarity
AI Agent
人工智能代理(Artificial Intelligence Agent),在LLM语境下,Agent 可以理解为某种能自主理解、规划决策、执行复杂任务的智能体。
Agent = LLM+Planning+Feedback+Tool use
临时记录
Vibe Coding(氛围编程、沉浸式编程)