第35章:聚焦于长文本处理的Transformer模型LED架构内幕及完整源码实现
1,Self-attention的问题及背后的数学原理分析
2,local windowed attention背后的数学原理分析
3,面向Task的global attention
4,LEDTokenizer源码完整实现解析
5,shift_tokens_right源码完整实现解析
6,make_causal_mask源码完整实现解析
7,expand_mask源码完整实现解析
8,LEDLearnedPositionalEmbedding源码完整实现解析
9,LEDEncoderBaseModelOutput源码完整实现解析
10,LEDSeq2SeqModelOutput源码完整实现解析
11,LEDSeq2SeqLMOutput源码完整实现解析
12,LEDSeq2SeqSequenceClassifierOutput源码完整实现解析
13,LEDSeq2SeqQuestionAnsweringModelOutput源码完整实现解析
14,LEDEncoderSelfAttention源码完整实现解析
15,pad_and_transpose_last_two_dims源码完整实现解析
16,pad_and_diagonalize源码完整实现解析
17,chunk源码完整实现解析
18,mask_invalid_locations源码完整实现解析
19,sliding_chunks_query_key_matmul源码完整实现解析
20,sliding_chunks_matmul_attn_probs_value源码完整实现解析
2
Transformer课程 第35章Transformer模型LED架构
关注
打赏
