transformer的优点

admin 39 0

Transformer的优点主要包括以下几点:

1. 完全基于Attention机制,解决了输入输出的长期依赖问题。

2. 具有并行计算的能力,大大减少了计算资源的消耗。

3. self-attention模块让源序列和目标序列首先“自关联”起来,使源序列和目标序列自身的embedding表示所蕴含的信息更加丰富,而且后续的FFN层也增强了模型的表达能力。

4. Multi-Head Attention模块使得Encoder端拥有并行计算的能力。

5. 相对于拥有残差结构和卷积结构的深度学习模型,其网络结构更加简单,训练和推理速度更快。

6. 在一些特定的任务上能取得更好的测试效果,例如语言建模、机器翻译等。

7. 拥有更高的并行度,并作为了谷歌云推荐的TPU(Tensor Processing Unit)推导模型。

Transformer具有很多优点,使其成为一种强大而有效的深度学习模型。