近日,腾讯云小微提出的多语言预训练模型“神农MShenNonG”以平均分85分的成绩登顶XTREME榜单。与此同时,该模型仅包含5亿级别的小参数量,也一举刷新业界记录。
据了解,该榜单是目前最受国内外行业公司认可的多语言评测榜单,研究人员以多语言预训练模型在此榜单的表现作为其跨语言迁移能力的评价标准。
目前,全球有超过6900种语言,其中大多数语种都没有足够的数据支撑研究者将其单独训练成成熟模型。腾讯云小微深耕知识挖掘、语义理解技术以及预训练技术,“神农MShenNonG”此次登顶XTREME榜单,代表了其从单语言到多语言理解能力的一个显著扩展,将跨语言迁移开发由市场平均的月级降低至10天。同时,“神农”系列的预训练模型已应用于云小微全系列产品矩阵,可显著提升AI语音助手、智能客服机器人、数智人等产品的多项技术指标,助力出海企业快速落地本地化服务。
刷新行业记录,跨语言迁移开发周期缩短至10天
(资料图片仅供参考)
凭借对自然语言应用程序等领域发展研究的积极作用,XTREME榜单备受业界认可。
由于大多数的NLP预训练模型主要为中文、英文等高资源语种,低资源小语种的研究并未得到足够重视。2020年,来自 CMU、谷歌研究院和 DeepMind的科学家们提出了覆盖四十种语言、横跨了12个语系的大规模多语言多任务基准 XTREME,其中包含了9项需要不同句法或语义层面进行推理的任务,并可以为语句文本分类、结构预测、语句检索和跨语言问答等自然语言处理任务提供有效支持。
此次登顶XTREME榜单,主要是由于“神农MShenNonG”在以下三个不同维度做了创新性的尝试。
首先,在数据层面,预训练模型的训练数据主要由两种形式的数据构成:单语种句子和双语平行句对。此前的模型处理方法是,对于单语种句子,单纯地将单语种信息输入模型,并以MLM作为训练目标,非常依赖相似语系之间“共享词”的预测来建模各语言间的语义对齐关系;对于平行句对,又依赖平行语料的规模和组合,模型对其对齐关系的建模存在一定缺陷。为缓解以上问题,腾讯云小微研究团队提出了基于混合编码的数据构造方式,分别利用双语对齐词典和句子检索工具,构造大量的“多语言混合”训练数据。
其次,在模型层面,研究团队提出了一种可插拔的、基于多尺度的多语言信息融合模块,分别从词级别和句子级别多个尺度融入多语言信息,期望在训练过程中,加强所有语种的词向量的更新和对齐,解决多语言模型对低资源语种、低频次词汇建模较弱的问题。
第三,在训练方式上,研究团队分别通过语种层面和语义层面引入对比学习策略,使得相同语义的表示相互拉近,不同语义的表示相互远离,进一步强化多语言预训练模型对于多语言的语义建模能力和语义匹配能力。
值得注意的是,研究团队重视多尺度的多语言的一致性建模,以强化预训练模型的跨语言迁移能力,并将跨语言迁移开发由市场平均的月级降低至周级,同时,相较市场平均1个月以上的模型迭代周期,“神农MShenNonG”仅需10天。
多次登顶权威榜单神农以技术优势探索出海场景
“神农MShenNonG”登顶XTREME榜单,依托于腾讯云小微团队技术研发和行业知识的长期积累。此前,腾讯云小微的中文预训练模型ShenNonG就以十亿级参数量一举登顶CLUE总排行榜、1.1分类任务、阅读理解任务和命名实体任务四个榜单,刷新行业记录。
专注于语义理解技术以及预训练技术的研发,此次登顶XTREME榜单代表了腾讯云小微从单语言到多语言理解相关技术的一个扩展。目前,“神农”系列的预训练模型已应用于全系列产品矩阵,可显著提升AI语音助手、智能客服机器人、数智人等产品的多项技术指标。
随着开发的不断成熟,优势产品向海外拓展成为不少国内企业的选择。但产品出海通常要面临适应新语种、业务本地化的挑战。过往,以机器翻译的方式将单语种迁移到多语言场景,不仅费时费力,效果也差强人意。相对于传统的机器翻译模式,腾讯云小微“神农MShenNonG”预训练模型有着低成本、低门槛的优势,以轻量参数为多行业、小语种提供跨语言迁移服务,助力企业降本增效,落地出海业务。
未来,腾讯云小微团队还将持续深耕知识挖掘和深度学习技术,探索更多技术落地场景,以科技助力各行业的企业更好地服务用户,为社会创造更多价值。
免责声明:本文不构成任何商业建议,投资有风险,选择需谨慎!本站发布的图文一切为分享交流,传播正能量,此文不保证数据的准确性,内容仅供参考
关键词:
【独家】腾讯云小微技术登顶权威榜单XTREME基准,跨语言技术迁移开发助力企业出海
近日,腾讯云小微提出的多语言预训练模型“神农MShenNonG”以平均分85分的成绩登顶XTREME榜单。与此同时,该模型仅包含5亿级别的小参数量,...
每日播报!广东公检法联合发文:收缴非法枪爆等物品,举报最高奖5万元
文 羊城晚报全媒体记者张璐瑶近日,广东省高级人民法院、广东省人民检察院、广东省公安厅联合发布《关于依法收缴非法枪爆等物品严厉打...
热点聚焦:汕头市区到澄海仅需10分钟!中山东路澄海段通过验收
文 羊城晚报全媒体记者王丹阳通讯员江雄肖明葵王雄伟肖前波张元根高松6月10日,随着汕头中山东路最后一个标段完成并通过竣工验收,标志着中山
快报:中国知网向个人提供查重服务,1.5元/千字
文 羊城晚报全媒体记者陈亮6月12日0时,中国知网发布《关于中国知网向个人提供查重服务的公告》称,为回应社会各界特别是广大学生群体...
热点!广东:高考期间无考生因天气原因迟到或缺考,未来5天局地仍有暴雨
文 图羊城晚报全媒体记者付怡通讯员粤应宣6月5日至6月11日,广东省出现大范围的暴雨到大暴雨局地特大暴雨,部分市县伴有8级左右的雷雨大风。本
每日观点:清远体育健儿夺得省运会首个奖牌!
文 图李程6月11日上午,广东省第十六届运动会群众项目体育舞蹈比赛在清远市体育馆举行,清远代表队伍蔚林和肖丽华组合夺得壮年组拉丁舞三项比
【速看料】一周警报丨高考后,这些事情千万不能做!
文 羊城晚报全媒体记者张璐瑶素材来源:中国警方在线、公安部刑侦局、人民法院报、桐乡公安局、广东公安、潮州公安、佛山市公安局一年...
最新:广东结束防汛Ⅳ级应急响应
羊城晚报讯记者付怡、通讯员粤应宣报道:6月11日,广东省防汛防旱防风总指挥部办公室、广东省应急管理厅发布关于结束防汛Ⅳ级应急响应的...
当前热点《手绘佛山非遗作品集》首次亮相 集中展示非物质文化遗产
羊城晚报讯记者张闻、通讯员张紫琳报道:11日,2022年佛山市“文化和自然遗产日”活动在佛山古镇历史风貌展示馆举行。活动当天,由佛山...
最资讯丨广州珠江公园“网约帐篷”首日 工作人员一度比帐篷客多
11日在珠江公园搭天幕的游客文 图羊城晚报全媒体记者李春炜6月11日起,进入珠江公园大草坪搭帐篷必须提前预约。这是广州首个实行“网约...
视讯!【地评线】两江评 | 保护和传承文化和自然遗产 让人民生活更美好
麦浪飘香,文明激荡。6月11日是202...
全新路虎发现运动大都会版正式上市,捷豹路虎尽显英伦豪华风范
2022月6月10日,全新路虎发现运动...
陕西2022体育精品赛事发布:“西马”“城马”拟定11月举行
无赛事,不体育。自2019年首次推出...
刚刚,北大青鸟再登2021年中国特许连锁Top100!速看!
近日,中国连锁经营协会(CCFA)根据2...
每日信息:战斗在暴雨中
暴雨中,湖南省汝城县马桥镇纪委干...
观点:星火成炬|闪光少年
闪光,是不动声色的体贴;闪光,是...
热点!【在希望的田野上·三夏时节】高科技助力“三夏” 全力保障夏粮丰产丰收
央视网消息:农业农村部今天发布的...
每日短讯:两部门紧急预拨3.6亿元支持地方做好防汛抗旱救灾工作
记者11日从应急管理部获悉,财政部...
每日动态!谁最楚楚动人?创意短视频《不服周》来了!
视频来源荆州日报6月11日是我国第...
热门:非媒文章:当各国选择中国的立场,美国在哭泣
参考消息网6月11日报道南非独立在...
滚动:我的就业进行时|我是古籍修复师:修书如修心
陈吉星是四川省古籍修复中心的一个...
实时:长三角一体化发展重大项目沪苏湖铁路上海段全面复工
央视网消息:长三角一体化发展重大...
热消息:我的就业进行时|在“穿越”中,不断超越
袁霄是南京信息工程大学本科应届毕...
今日聚焦!【奋斗者·正青春】邵晶:用双手实证中华5000多年文明史
央广网北京6月11日消息(记者雷恺...
尹昉吴孟珂蘑菇屋“蜜月行” 容声冰箱助力婚宴制作现场
本期《向往的生活》正值结婚周年纪...
最新:广东结束防汛Ⅳ级应急响应
羊城晚报讯记者付怡、通讯员粤应宣...
当前热点《手绘佛山非遗作品集》首次亮相 集中展示非物质文化遗产
羊城晚报讯记者张闻、通讯员张紫琳...
最资讯丨广州珠江公园“网约帐篷”首日 工作人员一度比帐篷客多
11日在珠江公园搭天幕的游客文 图...
焦点快报!阳江突降暴雨多地水浸 消防紧急救援被困居民
羊城晚报讯记者全良波、詹翔闵,通...