41,Transformer如果采用和Inference同样的流程来进行Training,会有什么问题?请至少指出3点问题并说明背后的数学原理 42,为何Transformer的Matrix Dimensions是3D的?请详述每个Dimension大小的改变是如何影响整个Transformer训练过程的?请详述其具体的流程和数学原理 43,请描述只由一个Encoder和Decoder的Transformer使用了Attention的三个地方及其功能 44,请分别描述当进行Training和Inference的时候Masking在Transformer三大不同类型使用Attention机制的地方的具体功能和数学实现 45,请描述Transformer的Training Loss具体工作流程和背后的数学公式 46,请阐述Multi-head Attention机制中通过Linear layer的Matrices计算Query、Key、Value时候进行logical partition和physical partition的异同及背后的数学原理 47,请阐述Transformer中所有能够trainable的操作及其功能 48,请阐述Query、Key、Value在Transformer中具体的功能 49,为什么Transformer中的Attention Score能够衡量不同Words之间Relevance的不同程序呢?请说明背后的物理机制和数学原理 50,Transformer是如何知道什么样的Weights能够使得其更好的表达不同信息部分的不同程度的注意力的?请描述其运行机制和背后的数学假设
星空智能对话机器人的Gavin认为Transformer是拥抱数据不确定性的艺术。Transformer的架构、训练及推理等都是在Baye