跳过正文
  1. 文章列表/

Transformer网络

·510 字·2 分钟·
RayChaux
作者
RayChaux

一、注意力与Transformer
#

Transformer是Google的团队在2017年提出的一种NLP经典模型,前两年比较火热的 Bert、GPT以及其他大语言模型也是基于 Transformer。Transformer模型使用了Self-Attention机制,不采用RNN的顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。

RNN中注意力的问题
#

注意力的核心:对输入的信息进行选择性关注

为什么要用位置Encoding? 为什么要用掩码? 为什么要用逐位置FFN?

二、Transformer与大语言模型
#

2.1 GPT
#

GPT(Generativee Pre-trained Transformer),即生成式预训练Transformer,
第一阶段:无监督的预训练 在一个大规模的文本数据集上学习一个高容量的语言模型,使模型学习一套初始参数(这个初始参数也就是Transformer中的Wq,Wk,Wv等),从而掌握在给定的上下文之后续写文本的能力。

第二阶段:有监督的微调 确保模型在特定任务上可以按照期望生成更精确的内容。

思考:怎么对相同的输入生成多个不同的结果? 引入随机性 为什么不对生成的结果直接评分?

2.2 BERT
#

(Bidirectional Encoder Representations from Transformers) GPT的一种优化

三、Transformer与视觉模型
#

3.1 ViT
#

通过邮件回复