您当前的位置: 首页 >  面试

段智华

暂无认证

  • 1浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Transformer面试 GavinNLP Transformer101之41-50

段智华 发布时间:2021-11-24 20:07:39 ,浏览量:1

41,Transformer如果采用和Inference同样的流程来进行Training,会有什么问题?请至少指出3点问题并说明背后的数学原理 42,为何Transformer的Matrix Dimensions是3D的?请详述每个Dimension大小的改变是如何影响整个Transformer训练过程的?请详述其具体的流程和数学原理 43,请描述只由一个Encoder和Decoder的Transformer使用了Attention的三个地方及其功能 44,请分别描述当进行Training和Inference的时候Masking在Transformer三大不同类型使用Attention机制的地方的具体功能和数学实现 45,请描述Transformer的Training Loss具体工作流程和背后的数学公式 46,请阐述Multi-head Attention机制中通过Linear layer的Matrices计算Query、Key、Value时候进行logical partition和physical partition的异同及背后的数学原理 47,请阐述Transformer中所有能够trainable的操作及其功能 48,请阐述Query、Key、Value在Transformer中具体的功能 49,为什么Transformer中的Attention Score能够衡量不同Words之间Relevance的不同程序呢?请说明背后的物理机制和数学原理 50,Transformer是如何知道什么样的Weights能够使得其更好的表达不同信息部分的不同程度的注意力的?请描述其运行机制和背后的数学假设

星空智能对话机器人的Gavin认为Transformer是拥抱数据不确定性的艺术。

Transformer的架构、训练及推理等都是在Baye

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0569s