rss 推荐阅读 wap

四川新闻网_sc-028.com_四川在线_四川门户网站!

热门关键词:  云南  自驾游  as  xxx  test
首页 四川新闻 网络热点 金融财富 科技前沿 军事揭秘 国内国际 休闲旅游 时尚健康 商务营销 商业推广

为大家介绍三个NLP领域的热门词汇

发布时间:2020-10-17 09:38:42 已有: 人阅读

  编者按:在过去的一段时间,自然语言处理领域取得了许多重要的进展,Transformer、BERT、无监督机器翻译,这些词汇仿佛在一夜之间就进入了人们的视野。你知道它们具体都是什么意思吗?今天,我们就将为大家介绍三个NLP领域的热门词汇。

  Transformer在2017年由Google在题为《Attetion Is All You Need》的论文中提出。Transformer是一个完全基于注意力机制的编模型,它抛弃了之前模型引入注意力机制后仍然保留的循环与卷积结构,而采用了自注意力(Self-attention)机制,在任务表现、并行能力和易于训练性方面都有大幅的提高。

  在 Transformer 出现之前,基于神经网络的机器翻译模型多数都采用了 RNN的模型架构,它们依靠循环功能进行有序的序列操作。虽然 RNN 架构有较强的序列建模能力,但是存在训练速度慢,训练质量低等问题。

  与基于 RNN 的方法不同,Transformer 模型中没有循环结构,而是把序列中的所有单词或者符号并行处理,同时借助自注意力机制对句子中所有单词之间的关系直接进行建模,而无需考虑各自的位置。具体而言,如果要计算给定单词的下一个表征,Transformer 会将该单词与句子中的单词一一对比,并得出这些单词的注意力分数。注意力分数决定单词对给定词汇的语义影响。之后,注意力分数用作所有单词表征的平均权重,这些表征输入全连接网络,生成新表征。

  由于 Transformer 并行处理所有的词,以及每个单词都可以在多个处理步骤内与单词之间产生联系,它的训练速度比 RNN 模型更快,在翻译任务中的表现也比 RNN 模型更好。除了计算性能和更高的准确度,Transformer 另一个亮点是可以对网络关注的句子部分进行可视化,尤其是在处理或翻译一个给定词时,因此可以深入了解信息是如何通过网络传播的。

  之后,Google的研究人员们又对标准的 Transformer 模型进行了拓展,采用了一种新型的、注重效率的时间并行循环结构,让它具有通用计算能力,并在更多任务中取得了更好的结果。

  改进的模型(Universal Transformer)在保留Transformer 模型原有并行结构的基础上,把 Transformer 一组几个各异的固定的变换函数替换成了一组由单个的、时间并行的循环变换函数构成的结构。相比于 RNN一个符号接着一个符号从左至右依次处理序列,Universal Transformer 和 Transformer 能够一次同时处理所有的符号,但 Universal Transformer 接下来会根据自注意力机制对每个符号的解释做数次并行的循环处理修饰。Universal Transformer 中时间并行的循环机制不仅比 RNN 中使用的串行循环速度更快,也让 Universal Transformer 比标准的前馈 Transformer 更加强大。

  目前神经网络在进行训练的时候基本都是基于后向传播(Back Propagation,BP)算法,通过对网络模型参数进行随机初始化,然后利用优化算法优化模型参数。但是在标注数据很少的情况下,通过神经网络训练出的模型往往精度有限,“预训练”则能够很好地解决这个问题,并且对一词多义进行建模。

  预训练是通过大量无标注的语言文本进行语言模型的训练,得到一套模型参数,利用这套参数对模型进行初始化,再根据具体任务在现有语言模型的基础上进行精调。预训练的方法在自然语言处理的分类和标记任务中,都被证明拥有更好的效果。目前,热门的预训练方法主要有三个:ELMo,OpenAI GPT和BERT。

  在2018年初,艾伦人工智能研究所和华盛顿大学的研究人员在题为《Deep contextualized word representations》一文中提出了ELMo。相较于传统的使用词嵌入(Word embedding)对词语进行表示,得到每个词唯一固定的词向量,ELMo 利用预训练好的双向语言模型,根据具体输入从该语言模型中可以得到在文本中该词语的表示。在进行有监督的 NLP 任务时,可以将 ELMo 直接当做特征拼接到具体任务模型的词向量输入或者是模型的最高层表示上。

  在ELMo的基础之上,OpenAI的研究人员在《Improving Language Understanding by Generative Pre-Training》提出了OpenAI GPT。与ELMo为每一个词语提供一个显式的词向量不同,OpenAI GPT能够学习一个通用的表示,使其能够在大量任务上进行应用。在处理具体任务时,OpenAI GPT 不需要再重新对任务构建新的模型结构,而是直接在 Transformer 这个语言模型上的最后一层接上 softmax 作为任务输出层,再对这整个模型进行微调。

  ELMo和OpenAI GPT这两种预训练语言表示方法都是使用单向的语言模型来学习语言表示,而Google在提出的BERT则实现了双向学习,并得到了更好的训练效果。具体而言,BERT使用Transformer的编码器作为语言模型,并在语言模型训练时提出了两个新的目标:MLM(Masked Language Model)和句子预测。MLM是指在输入的词序列中,随机的挡上 15% 的词,并遮挡部分的词语进行双向预测。为了让模型能够学习到句子间关系,研究人员提出了让模型对即将出现的句子进行预测:对连续句子的正误进行二元分类,再对其取和求似然。

  现有的机器翻译需要大量的翻译文本做训练样本,这使得机器翻译只在一小部分样本数量充足的语言上表现良好,但如何在没有源翻译的情况下训练机器翻译模型,即无监督训练,成为了目前热门的研究话题。Facebook在EMNLP 2018上的论文《Phrase-Based & Neural Unsupervised Machine Translation》利用跨字嵌入(Cross Word Embedding),提升了高达11 BLEU,那么Facebook是如何实现的呢?

  第一步是让系统学习双语词典。系统首先为每种语言中的每个单词训练词嵌入,训练词嵌入通过上下文来预测给定单词周围的单词。不同语言的词嵌入具有相似的邻域结构,因此可以通过对抗训练等方法让系统学习旋转变换一种语言的词嵌入,以匹配另一种语言的词嵌入。基于这些信息,就可以得到一个相对准确的双语词典,并基本可以实现逐字翻译。在得到语言模型和初始的逐字翻译模型之后,就可以构建翻译系统的早期版本。

  然后将系统翻译出的语句作为标注过的真实数据进行处理,训练反向机器翻译系统,得到一个更加流畅和语法正确的语言模型,并将反向翻译中人工生成的平行句子与该语言模型提供的校正相结合,以此来训练这个翻译系统。

  通过对系统的训练,形成了反向翻译的数据集,从而改进原有的机器翻译系统。随着一个系统得到改进,可以使用它以迭代方式在相反方向上为系统生成训练数据,并根据需要进行多次迭代。

  逐字嵌入初始化、语言建模和反向翻译是无监督机器翻译的三个重要原则。将基于这些原理得到的翻译系统应用于无监督的神经模型和基于计数的统计模型,从训练好的神经模型开始,使用基于短语模型的反向翻译句子对其进行训练,最终得到了一个既流畅,准确率又高的模型。

  对于无监督机器翻译,微软亚洲研究院自然语言计算组也进行了探索。研究人员利用后验正则(Posterior Regularization)的方式将SMT(统计机器翻译)引入到无监督NMT的训练过程中,并通过EM过程交替优化SMT和NMT模型,使得无监督NMT迭代过程中的噪音能够被有效去除,同时NMT模型也弥补了SMT模型在句子流畅性方面的不足。相关论文《Unsupervised Neural Machine Translation with SMT as Posterior Regularization》已被AAAI 2019接收。

  文章出处:【微信号:rgznai100,微信公众号:AI科技大本营】欢迎添加关注!文章转载请注明出处。

  该研究的作者罗伯特·贝克(Robert Beck)说:“使用最先进的优化算法,光谱训练集可以估算光源....

  这次,苹果一口气发布了 四款新 iPhone: 既有全球最小巧、最纤薄、最轻便的 5G 手机:iPh....

  为了建立他们的模型,Soens和同事们回顾了来自近6,000名不同手术类别的术后患者的数据。他们发现....

  今年早些时候,在冠状病毒大流行之后不久,IBM在2月至4月之间记录了其对话式AI平台Watson A....

  “多年来,我们一直在研究我们可以从自然界中学到什么,以改善深度学习,”维也纳工业大学“网络物理系统....

  研究人员使用人工智能准确预测了圣迭戈县当地某高级住宅社区居民的孤独感问题。根据研究人员在《美国精神病....

  神经网络无需学习就能驾驶虚拟赛车。 动物生下来就具有天生的能力和禀性。马生下来几小时后就会走,鸭子孵....

  安谋科技今天正式发布“周易”Z2 AIPU(AI Processing Unit),单核算力最高可达....

  为了解决AI边缘应用开发部署遇到的真实问题,OPEN AI LAB的边缘AI推理框架Tengine团....

  人工智能(AI)、机器学习(ML)和深度神经网络(DNN)正在颠覆金融行业的业务,挑战传统价值。

  除了强大的创新精神,道德是恩智浦公司的核心价值观。作为人工智能领域的创新企业,我们致力于践行道德原则....

  目前Cerence为全球道路上超过2.8亿辆车启动AI,支持超过70种语言,涵盖几乎世界上每一家主要....

  人工神经网络的特点和优越性,主要表现在三个方面:第一,具有自学习功能。例如实现图像识别时,只在先把许....

  CSEM工程师已经开发出一种解决此问题的方法。他们表明,计算机可以首先在极为简化的理论模型上进行训练....

  为了建立他们的模型,Soens和同事们回顾了来自近6,000名不同手术类别的术后患者的数据。他们发现....

  第一个工作是Research Track的《Towards Deeper Graph Neural ....

  病人事件图谱数据集 病人事件图谱是一种新的基于RDF的医疗观察性数据表示模型,可以清晰地表示临床检查....

  当处理一个分类问题时,使用softmax作为神经网络的最后一个激活单元是非常典型的用法。这是为什么呢....

  背景:回家看到小外甥存了很多零用钱,作为舅舅,最近手头有点紧。于是经过几天的筹划,决定制作一个剪刀石头布机器人,向小外甥...

  神经网络(NN)几乎可以在每个领域帮助我们用创造性的方式解决问题。本文将介绍神经网络的相关知识。读后....

  据市场研究机构Marketsand Markets发布的最新展望报告指出,由消费者需求所促成的庞大、....

  在近日举行的“第十六届CCF全过高性能计算学术年会”上,中国工程院副院长、中国科协、中国工程院....

  针对在传统机器学习方法下单幅图像深度估计效果差、深度值获取不准确的问题,提出了一种基于多孔卷积神经网....

  自动驾驶汽车利用传感器看见世界。但是它们如何处理通过传感器获得的数据呢? 用行业术语来说,问题的关键....

  各位小伙伴们,又到了喜闻乐见的更新时间,最近猛料不断,先有Boston动力的仁义机器人反恐演习,紧接....

  俄罗斯的一位科学家开发了一种新的神经网络架构,并测试了其在手写数字识别方面的学习能力。网络的智能被....

  前言 AI芯片(这里只谈FPGA芯片用于神经网络加速)的优化主要有三个方面:算法优化,编译器优化以及....

  如今,基于深度学习(DL)的人工智能(AI)应用越来越广泛,不论是在与个人消费者相关的智能家居、智能....

  数字化的生活方式和新兴的物联网与云端计算及数据服务的快速增长密不可分。云是全新的生活与工作方式的中心....

  从智能手机到航天器,机器学习算法无处不在。他们会告诉您明天的天气预报,将一种语言翻译成另一种语言,并....

  对话系统可以说是NLP领域目前已知最扎实的落地场景了,整个流程都脱离不了NLP的核心作用,而且整个流....

  自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总结。对于自然语言处....

  最近跟几个做电商NLP的朋友们聊天,有不少收获。我之前从来没想过【搜索】在电商里的地位是如此重要,可....

  神经网络是一种在结构上类似于人类大脑的互连计算系统,但最近有科学家提出了一个有争议的理论,认为整个宇....

  我的这篇文章不是第一篇(也不会是最后一篇)讨论人工智能界如何按自身规律发展的文章。正如不久前汉娜·克....

  iWave的Xilinx ZU19/17/11 Zynq UltraScale+ MPSoC So....

  反卷积也称为转置卷积,如果用矩阵乘法实现卷积操作,将卷积核平铺为矩阵,则转置卷积在正向计算时左乘这个....

  Yolo-V4的主要目的在于设计一个能够应用于实际工作环境中的快速目标检测系统,且能够被并行优化,并....

  BP神经网络是一种多层的前馈神经网络,其主要的特点是:信号是前向传播的,而误差是反向传播的。具体来说....

  传统计算机视觉方法使用成熟的 CV 技术处理目标检测问题,如特征描述子(SIFT、SUR、BRIEF....

  高考全省文科第四名,毅然选择报考北大考古专业的湖南留守女孩钟芳蓉,如今已经正式到北大报到。 但关于冷....

  本文针对NLP项目给出了4种常见的解题思路,其中包含1种基于机器学习的思路和3种基于深度学习的思路。

  针对传统的自回归积分移动平均(ARIMA)模型和长短时记忆(LSTM)单元在基站流量预测中没有利用基....

  据了解,这项新研究是首次使用人工智能方法同时对计算机的信息表示和大脑信号进行建模的研究。与参与者关注....

  严重程度:如果要在生命攸关的任务中使用AI,则必须做到透明。这样的任务很可能不仅仅依赖于AI,因此拥....

  如果说求职是人生的一道坎,那么面试就是最难翻越的那一块砖。 当你经历过大大小小的面试之后,就会发现不....

  由Sosina Abuhay ‘23,Sam Aravilli ’23,Siqi Fang ‘23和....

  机器学习一词经常与AI互换使用,尽管有明显的区别。机器学习算法使用机器来了解给定的数据集。机器学习的....

  基于树的模型和神经网络其实并没有太多的不同。神经网络通常被认为是机器学习的圣杯,无所不知,解决一切问....

  随着IT工作变得越来越复杂,关于任何一家公司如何定义其职位名称以及雇主如何用不同的技能来弥补同一职位....

  Lytx 技术副总裁迈克尔· 菲利普皮(Michael Phillippi)将AI形容为“一种专门为....

  1、宽频限制以及嵌入式系统的计算能力 NN需要大量数据,利用DDR在各层之间进行传输。如为卷积和完全连接数据重量来...

  硬件配置 —————————————————————————————————— -海思Hi3559AV100 CPU,...

  《深度学习工程师-吴恩达》02改善深层神经网络--超参数优化、batch正则化和程序框架 学结...

首页 | 四川新闻 | 网络热点 | 金融财富 | 科技前沿 | 军事揭秘 | 国内国际 | 休闲旅游 | 时尚健康 | 商务营销 |免责声明

Copyright2008-2022 四川新闻网 www.sc-028.com 版权所有 业务QQ:17468920 Power by DedeCms

电脑版 | wap