Rasa课程、Rasa培训、Rasa面试、Rasa实战系列之 Language Agnostic BERT
Language Agnostic BERT-
Language-agnostic BERT Sentence Embedding 虽然 BERT 是一种学习单语句子嵌入以实现语义相似性和基于嵌入的迁移学习的有效方法(Reimers 和 Gurevych,2019),但基于 BERT 的跨语言句子嵌入还有待探索。我们通过结合学习单语和跨语言表示的最佳方法,系统地研究学习多语言句子嵌入的方法,包括:掩码语言建模 (MLM)、翻译语言建模 (TLM) (Conneau 和 Lample, 2019)、双编码器翻译排名 ( Guo et al., 2018) 和additive margin softmax (Yang et al., 2019a)。我们表明,引入预训练的多语言语言模型可将实现良好性能所需的并行训练数据量显着减少 80%。将这些方法中的佼佼者组合在一起产生了一个模型,该模型在 Tatoeba 上对 112 种语言实现了 83.7% 的双文本检索准确率,远高于 Artetxe 和 Schwenk (2019b) 取得的 65.5%,同时在单语迁移学习基准 (Conneau 和Kiela,2018)。使用我们最好的模型从 CommonCrawl 挖掘的并行数据被证明可以为 en-zh 和 en-de 训练有竞争力的 NMT 模型。我们在 https://tfhub.dev/google/LaBSE 公开发布了针对 109 多种语言的最佳多语言句子嵌入模型。使用我们最好的模型从 CommonCrawl 挖掘的并行数据被证明可以为 en-zh 和 en-de 训练有竞争力的 NMT 模型。我们在 https://tfhub.dev/google/LaBSE
关注打赏
- 计算机视觉系列 -MMDetection 之MobileNetV2YOLOV3 经典算法(一)
- Rasa 3.x 学习系列- Rasa - Issues 4635:Make Rasa X model pull interval configurable in local mode
- Rasa 3.x 学习系列- Rasa - Issues 4759:Training Luis data with luis_schema_version higher than 4.x.x will
- Rasa 3.x 学习系列- Rasa - Issues 4799 rasa interactive does not work without nlu data
- Rasa 3.x 学习系列- Rasa - Issues 4917 Support S3 namespaces when retrieving models from buckets
- Rasa 3.x 学习系列- Rasa - Issues 4925 “rasa init” will ask if user wants to train a model
- Rasa 3.x 学习系列- Rasa - Issues 4985 Fix errors during training in ResponseSelector学习笔记
- Rasa 3.x 学习系列- Rasa - Issues 4933 Improved error message that appears when an incorrect paramete学习笔记
- Rasa 3.x 学习系列- Rasa - Issues 4792 socket debug logs clog up debug feed学习笔记
- Rasa 3.x 学习系列- Rasa - Issues 4873 dispatcher.utter_message 学习笔记