小天资源库
当前位置:小天资源库 / SEO优化 / 正文

半兽人的魔法世界全集

作者:zerdu发布时间:2020-04-12 16:02浏览数量:43次评论数量:0次

半兽人的魔法世界全集


中新網7月31日電 2019年3月,百度正式發布NLP模型ERNIE,其在中文任務中全面超越BERT壹度引發業界廣泛關註和探討。


  今天,經過短短幾個月時間,百度ERNIE再升級。發布持續學習的語義理解框架ERNIE 2.0,及基於此框架的ERNIE 2.0預訓練模型。繼1.0後,ERNIE英文任務方面取得全新突破,在共計16個中英文任務上超越了BERT和XLNet, 取得了SOTA效果。目前,百度ERNIE 2.0的Fine-tuning代碼和英文預訓練模型已開源。(Github 項目地址:https://github.com/PaddlePaddle/ERNIE)


  近兩年,以BERT、XLNet為代表的無監督預訓練技術在語言推斷、語義相似度、命名實體識別、情感分析等多個自然語言處理任務上取得了技術突破。基於大規模數據的無監督預訓練技術在自然語言處理領域變得至關重要。


  百度發現,之前的工作主要通過詞或句子的共現信號,構建語言模型任務進行模型預訓練。例如,BERT通過掩碼語言模型和下壹句預測任務進行預訓練。XLNet構建了全排列的語言模型,並通過自回歸的方式進行預訓練。


  然而,除了語言共現信息之外,語料中還包含詞法、語法、語義等更多有價值的信息。例如,人名、地名、機構名等詞語概念知識,句子間順序和距離關系等結構知識,文本語義相似度和語言邏輯關系等語義知識。設想如果能持續地學習各類任務,模型的效果能否進壹步提升?


ERNIE 2.0:可持續學習語義理解框架ERNIE 2.0:可持續學習語義理解框架

  基於此,百度提出可持續學習語義理解框架ERNIE 2.0。該框架支持增量引入詞匯(lexical)、語法 (syntactic) 、語義 (semantic) 等3個層次的自定義預訓練任務,能夠全面捕捉訓練語料中的詞法、語法、語義等潛在信息。這些任務通過多任務學習對模型進行訓練更新,每當引入新任務時,該框架可在學習該任務的同時,不遺忘之前學到過的信息。這也意味著,該框架可以通過持續構建訓練包含詞法、句法、語義等預訓練任務,持續提升模型效果。


新發布的ERNIE 2.0模型結構新發布的ERNIE 2.0模型結構

  依托該框架,百度充分借助飛槳PaddlePaddle多機分布式訓練優勢,利用 79億tokens訓練數據(約1/4的XLNet數據)和64張V100 (約1/8的XLNet硬件算力)訓練的ERNIE 2.0預訓練模型不僅實現了SOTA效果,而且為開發人員定制自己的NLP模型提供了方案。目前,百度開源了ERNIE 2.0的fine-tuning代碼和英文預訓練模型。


  百度研究團隊分別比較了中英文環境上的模型效果。英文上,ERNIE 2.0在自然語言理解數據集GLUE的7個任務上擊敗了BERT和XLNet。中文上,在包括閱讀理解、情感分析、問答等不同類型的9個數據集上超越了BERT並刷新了SOTA。


  ERNIE的工作表明,在預訓練過程中,通過構建各層面的無監督預訓練任務,模型效果也會顯著提升。未來,研究者們可沿著該思路構建更多的任務提升效果。


  自2018 年預訓練語言模型 BERT 提出之後,預訓練語言模型將自然語言處理的大部分任務水平提高了壹個等級,這個領域的研究也掀起了熱潮。如今百度ERNIE 2.0 再度為行業提供了研究思路上的方法創新,可持續學習的特點亦將成為NLP領域發展裏程中的註腳。


文章到此结束
版权免责声明 1、本网站名称:小天资源库
2、本站永久网址:https://www.zyw5.cn/
3、本网站的资源部分来源于网络,如有侵权,请联系站长进行删除处理。
4、会员发帖仅代表会员个人观点,并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
6、本站资源大多存储在蓝奏云,如发现链接失效  点此反馈 我们会第一时间更新。

搜一下

zerdu

zerdu 主页 联系他吧

描述:TA很懒,啥都没写...