Transformer面试 GavinNLP Transformer101之91-101

段智华发布时间：2021-11-24 20:12:22 ，浏览量：4

91, 请描述Transformer在Training的时候具体使用MAP(Maximum A Posteriori) estimation 模型的地方并描述其流程机制和数学原理
92, 请描述Transformer在训练的过程中什么情况下使用MLE和MAP是基本没有区别的，其背后的数学原理是什么？
93, 为什么一般情况下Transformer的训练不会完全使用Bayesian模型而是更倾向于采用Naive Bayes？请具体阐述其架构和背后的数学原理
94，请从Bayesian模型的角度分析Transformer中代表模型例如GPT3为何是模型越宽越深越好？
95，请描述Naive Bayes在Transformer的Auto-encoding模型训练时候的具体应用及其有效性的数学证明
96，请描述Naive Bayes在Transformer的Auto-regressive模型训练时候的具体应用，这样能够在小样本数据的时候帮助取得优质德训练效果？其有效性的数学证明是什么？
97，请描述Naive Bayes在Transformer的Generative Process的具体流程和有效性的数学证明
98，使用Naive Bayes来完成Transformer的Generative Process会有什么问题？问题背后工程实现限制和数学原因是什么？
99，如何使用Transformer和LDA结合完成信息的多分类模型？请实现示例代码
100，为何说Transformer是目前人工智能领域工程落地实践Bayesian理论的典型？请从数学的的角度进行完整的证明（至少包含Encoder-Decoder、Training、Inference等对Bayesian Theory的具体实现）
101，在Gavin看来，“Transformer赋予机器思

关注

打赏

查看更多评论

Transformer面试 GavinNLP Transformer101之91-101

[ 申请 ]友情链接：