I Visualised Attention in Transformers
Attention in transformers, step-by-step | Deep Learning Chapter 6

全面的 深度学习 笔记(包含CV、NLP)- https://github.com/AccumulateMore/CV

面试必刷:大模型为什么深层网络需要正则化和归一化组合?