91, 请描述Transformer在Training的时候具体使用MAP(Maximum A Posteriori) estimation 模型的地方并描述其流程机制和数学原理
92, 请描述Transformer在训练的过程中什么情况下使用MLE和MAP是基本没有区别的,其背后的数学原理是什么?
93, 为什么一般情况下Transformer的训练不会完全使用Bayesian模型而是更倾向于采用Naive Bayes?请具体阐述其架构和背后的数学原理
94,请从Bayesian模型的角度分析Transformer中代表模型例如GPT3为何是模型越宽越深越好?
95,请描述Naive Bayes在Transformer的Auto-encoding模型训练时候的具体应用及其有效性的数学证明
96,请描述Naive Bayes在Transformer的Auto-regressive模型训练时候的具体应用,这样能够在小样本数据的时候帮助取得优质德训练效果?其有效性的数学证明是什么?
97,请描述Naive Bayes在Transformer的Generative Process的具体流程和有效性的数学证明
98,使用Naive Bayes来完成Transformer的Generative Process会有什么问题?问题背后工程实现限制和数学原因是什么?
99,如何使用Transformer和LDA结合完成信息的多分类模型?请实现示例代码
100,为何说Transformer是目前人工智能领域工程落地实践Bayesian理论的典型?请从数学的的角度进行完整的证明(至少包含Encoder-Decoder、Training、Inference等对Bayesian Theory的具体实现)
101,在Gavin看来,“Transformer赋予机器思
Transformer面试 GavinNLP Transformer101之91-101
关注
打赏
