61,在Transformer的架构中Decoder在进行Inferencer的时候同时接收来自Encoder和Decoder的输入信息,以NLP为例,这两种类型的输入在词法、语法、语义上是否有所不同?背后的数学原理是是什么? 62,请描述BERT的Tokenization机制的优势和不足,及针对不足的解决方案 63,Transformer的Input长度为何受限?请阐明数学原因并提供至少一种可能的解决方案 64,如果使用Pytorch实现Transformer,如何巧妙的使用或者停用 optimizer.zero_grad()来训练大模型,例如内存只允许一次只能训练一个Instance? 65,训练Transformer时候,如果因为内存大小限制导致连一个Instance的训练都无法容纳,该如何完成所有Instance的训练,请描述详细的工程过程 66,请从Data Science的角度分析为何Transformer是目前最generic的AI模型? 67,请分析一下是什么能够从根本上限制Transformer的能力? 68,请描述Transformer训练时候的Label Smoothing核心功能、运行机制和数学原理 69,请描述Beam Search算法在Transformer中的具体应用并阐述其有效性的数学数学假设和数学公式 70,请分析如何使用Transformer来有效的对Knowledge Graph中的Edge进行Encoding?
星空智能对话机器人的Gavin认为Transformer是拥抱数据不确定性的艺术。Transformer的架构、训练及推理等都是在Bayesian神经网络不确定性