【说人话版】大模型微调全流程详解!全程干货小白友好!Deepseek+LoRA+LLama-Factory微调大模型!
I Visualised Attention in Transformers
Attention in transformers, step-by-step | Deep Learning Chapter 6

全面的 深度学习 笔记(包含CV、NLP)- https://github.com/AccumulateMore/CV

面试必刷:大模型为什么深层网络需要正则化和归一化组合?