您当前的位置: 首页 >  面试

段智华

暂无认证

  • 3浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Transformer面试 GavinNLP Transformer101之61-70

段智华 发布时间:2021-11-24 20:09:50 ,浏览量:3

61,在Transformer的架构中Decoder在进行Inferencer的时候同时接收来自Encoder和Decoder的输入信息,以NLP为例,这两种类型的输入在词法、语法、语义上是否有所不同?背后的数学原理是是什么? 62,请描述BERT的Tokenization机制的优势和不足,及针对不足的解决方案 63,Transformer的Input长度为何受限?请阐明数学原因并提供至少一种可能的解决方案 64,如果使用Pytorch实现Transformer,如何巧妙的使用或者停用 optimizer.zero_grad()来训练大模型,例如内存只允许一次只能训练一个Instance? 65,训练Transformer时候,如果因为内存大小限制导致连一个Instance的训练都无法容纳,该如何完成所有Instance的训练,请描述详细的工程过程 66,请从Data Science的角度分析为何Transformer是目前最generic的AI模型? 67,请分析一下是什么能够从根本上限制Transformer的能力? 68,请描述Transformer训练时候的Label Smoothing核心功能、运行机制和数学原理 69,请描述Beam Search算法在Transformer中的具体应用并阐述其有效性的数学数学假设和数学公式 70,请分析如何使用Transformer来有效的对Knowledge Graph中的Edge进行Encoding?

星空智能对话机器人的Gavin认为Transformer是拥抱数据不确定性的艺术。

Transformer的架构、训练及推理等都是在Bayesian神经网络不确定性

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.1533s