71,如何由你使用Transformer来实现一个对话系统,如何判定用户当前的交流的内容是否离题,例如在办理一项业务过程中突然对话机器人今天天气怎么?请阐述架构思路及数学原理 72,请使用Einsum的方式编码实现Transformer的Attention机制 73,请描述Transformer使用动态Batch Size进行训练的原理、流程和数学证明 74,如何使用Transformer实现一个能够同时预测Intent和Entity的信息系统? 75,使用一个Transformer模型同时预测Intent和Entity有什么弊端?请分析该弊端的产生的原因并提出具体的解决方案 76,使用Transformer实现NLU的时候需要使用Masking机制吗?请解释工程原因及数学原理 77,如何使用Transformer来描述多轮对话?请描述工程架构和数学原理 78,请问使用Transformer和CRF做NER哪个更好?请提出至少3个工程落地的最佳实践。 79,请问使用手动实现Transformer和使用BERT哪个做Intent识别效果更好?请阐述具体的原因和工程实践过程 80,为何Transformer比RNN、LSTM等传统神经网络具有更高性价比且能够更有效的使用内存和计算资源?
星空智能对话机器人的Gavin认为Transformer是拥抱数据不确定性的艺术。Transformer的架构、训练及推理等都是在Bayesian神经网络不确定性数学思维下来完成的。Encoder-Decoder架构、Multi-head注意力机制、Dropout和残差网络等都是Bayesian神经网络的具体实现;基于Transformer各种模型变种及实践也都是基于Bayesian思想