您当前的位置: 首页 >  面试

段智华

暂无认证

  • 1浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Transformer面试 GavinNLP Transformer101之21-30

段智华 发布时间:2021-11-24 20:04:06 ,浏览量:1

21,Bert中NSP可能的问题有些哪些?这些问题背后的数学原理是什么?如何改进?可以去掉NSP训练任务吗? 22,请详解分析Transformer的Batch大小与训练的信息困惑度ppl的关系并阐明背后的数学原理 23,请从数据的角度分析一下为何在对Transformer进行参数的 Quantization的时候工业界最终选择了INT8?包括压缩的具体过程、KL散度、长尾分布等。如何处理Quantization后模型质量降低度情况? 24,以Transformer为代表的的Neuron Network逐渐主导了人工智能各领域,例如NLP, CV等的信息表示。请从数学的角度阐述为什么Neuron Network能够代表任意人复杂度的信息?使用神经网络表达信息具体有什么优势? 25,请描述至少三种判断Transformer中神经元Neuron相对重要程度的具体方法及其背后的数学原理 26,为什么说Transformer的注意力机制是相对廉价的?注意力机制相对更对于RNN系列及Convolution系列算法而言在计算上(尤其是计算复杂度)有什么优势? 27,请用具体例子阐述使用Multi-head的物理机制和并从数学的视角来推导其有效性的原因 28,请分享一下至少三种提升Transformer预测速度的具体的方法及其数学原理 29,请分别描述Bert的MLM和NSP技术(例如Sampling) 的问题及具体改进方式 30,请阐述使用Transformer实现Zero-shot Learning数学原理和具体实现流程

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0873s