自然语言处理NLP星空智能对话机器人系列:Gavin Transformers 101问
20,Transformer的Layer深度过深,例如512个Layer,会可能导致什么现象?请详述背后的数学机制 21,Bert中NSP可能的问题有些哪些?这些问题背后的数学原理是什么?如何改进?可以去掉NSP训练任务吗? 22,请详解分析Transformer的Batch大小与训练的信息困惑度ppl的关系并阐明背后的数学原理 23,请从数据的角度分析一下为何在对Transformer进行参数的 Quantization的时候工业界最终选择了INT8?包括压缩的具体过程、KL散度、长尾分布等。如何处理Quantization后模型质量降低度情况? 24,以Transformer为代表的的Neuron Network逐渐主导了人工智能各领域,例如NLP, CV等的信息表示。请从数学的角度阐述为什么Neuron Network能够代表任意人复杂度的信息?使用神经网络表达信息具体有什么优势? 25,请描述至少三种判断Transformer中神经元Neuron相对重要程度的具体方法及其背后的数学原理 26,为什么说Transformer的注意力机制是相对廉价的?注意力机制相对更对于RNN系列及Convolution系列算法而言在计算上(尤其是计算复杂度)有什么优势? 27,请用具体例子阐述使用Multi-head的物理机制和并从数学的视角来推导其有效性的原因 28,请分享一下至少三种提升Transformer预测速度的具体的方法及其数学原理 29,请分别描述Bert的MLM和NSP技术(例如Sampling) 的问题及具体改进方式 30,请阐述