基于混合注意力与强化学习的文本摘要生成

来源：意榕旅游网

ComputerEngineeringandApplications计算机工程与应用2020，56（1）185

基于混合注意力与强化学习的文本摘要生成

党宏社，陶亚凡，张选德

陕西科技大学电气与控制工程学院，西安710021

摘

要：基于递归神经网络的序列到序列的模型在文本摘要生成任务中取得了非常好的效果，但这类模型大多存在

生成文本重复、曝光偏差等问题。针对重复问题，提出一种由存储注意力和解码自注意力构成的混合注意力，通过存储历史注意力和增加对历史生成单词的注意力来克服该问题；使用强化学习作为一种新的训练方式来解决曝光偏差问题，同时修正损失函数。在CNN/DailyMail数据集对模型进行测试，以ROUGE为评价指标，结果证明了混合注意力对重复问题有较大的改善，借助强化学习可以消除曝光偏差，整合后的模型在测试集上超越先进算法。关键词：文本摘要生成；混合注意力；强化学习；自然语言处理；曝光偏差；递归神经网络文献标志码：A

中图分类号：TP391.1

doi：10.3778/j.issn.1002-8331.1907-0101

党宏社，陶亚凡，张选德.基于混合注意力与强化学习的文本摘要生成.计算机工程与应用，2020，56（1）：185-190.DANGHongshe,TAOYafan,ZHANGXuande.Abstractivesummarizationmodelbasedonmixtureattentionandrein-forcementlearning.ComputerEngineeringandApplications,2020,56（1）：185-190.

AbstractiveSummarizationModelBasedonMixtureAttentionandReinforcementLearning

DANGHongshe,TAOYafan,ZHANGXuande

SchoolofElectricalandControlEngineering,ShaanxiUniversityofScienceandTechnology,Xi’an710021,ChinaAbstract：RNN-basedsequence-to-sequencemodelshaveachievedgoodperformanceonabstractivesummarization.However,thesemodelshavesomeshortcomingsincludingrepetitiveandexposurebias.Amodelispresentedbasedonmixedattentionincludingtemporalattentionanddecodingself-attentionsavinghistoryattentionandaddingattentionforthedecodedwordtooptimizerepetitionproblem.Reinforcementlearningisusedasanewtrainingmethodtosolvetheproblemofexposurebias,andmodifyingthelossfunctiontoimprovetheresult.TheproposedmethodistestedusingCNN/DailyMaildatasetbyROUGE,showingthatmixedattentioncanimprovetherepetitionproblem,andtheexposurebiascanbeeliminatedbyreinforcementlearning,andtheintegratedmodelsurpassestheadvancedalgorithmonthetestset.Keyworks：abstractivesummarization;mixtureattention;reinforcementlearning;naturallanguageprocessing;exposurebias;recursiveneuralnetwork

1引言

重要的部分，将其复制并拼接成生成的摘要[7]，但是抽取文本摘要生成是自然语言处理的一个重要的方向，

的单词往往因为缺少连接词而不连续，而且无法产生原要求机器阅读一篇文章后自动生成一段具有概括性质文中不存在但是需要的新单词。因此人们需要一种类的内容[1]，比如生成摘要[2]或标题[3]。与一些其他的应用似人类书写摘要的方法，先阅读文章并理解，再自己组不同，如机器对话[4]、机器翻译[5]等输入和输出文本的长织语言编写摘要，摘要与原文意思接近且主旨明确。随度较为接近，文本摘要的输入的文本长度往往远大于输着序列到序列（Sequence-to-Sequence，Seq2Seq）模型的出的文本长度，输入与输出的不对称也使得其较为特成功[8]，使用递归神经网络（RecurrentNeuralNetworks，殊，因此诞生了一种抽取式的方式[6]——在原文中寻找

RNN）来阅读文章和生成题目成为可能[9]。

基金项目：国家自然科学基金（No.61871260）。

作者简介：党宏社（1962—），男，博士，教授，博士生导师，主要研究方向为工业过程与优化、多源信息融合、数字图像处理、工业机器

人；陶亚凡（1995—），男，硕士研究生，CCF会员，主要研究方向为自然语言处理、强化学习，E-mail：tao_yafan@qq.com；张选德（1979—），男，博士，教授，硕士生导师，主要研究方向为图像处理、稀疏表示理论、低秩逼近、图像质量评价。

收稿日期：2019-07-08

修回日期：2019-09-20

文章编号：1002-8331（2020）01-0185-06

CNKI网络出版：2019-09-25,http://kns.cnki.net/kcms/detail/11.2127.tp.20190924.1046.004.html

1862020，56（1）ComputerEngineeringandApplications计算机工程与应用

但是常规的Seq2Seq模型[10]存在一些问题，首先，进x2,…,xne}表示编码器输入单词序列，

h={h1,h2,…,hne}行摘要生成任务之前，需要先建立固定大小的词汇表，表示编码器的输出序列，

s={s1,s2,…,snd}表示解码器的在处理文本时将文本的每个单词用其在词汇表中的索输出序列，y={y1,y2,…,y引代替。但是几乎所有的文章都会出现词汇表中没有nd}表示最终输出的单词序列

的（Out-of-Vocabulary，OOV）单词，如人名、地名、比分而y*={y*1,y*2,…,y*

}表示训练样本参考摘要中的单词等，当常规Seq2Seq模型遇到这些单词后，只能将其统序列，[a,b]表示将向量a和向量b合并为一个向量。

一视作不认识的单词（UnknownWord，UNK），因此输2.1整体架构与训练方法

出也经常会出现UNK[11]。目前该问题已经有较好的解在强化学习领域，一般的模型结构如图1（a）所示，

决方案，如指针网络[12]。

智能体首先从环境获取当前的状态，然后进行运算得到然而有很多其他的问题目前并没有统一的解决方动作输出至环境，环境再根据智能体的动作计算奖赏同案。在生成多句话的摘要时，常常会生成重复的单词或时得到下一个时刻的状态，由此循环一直到终止状态停句子[13]。See等人[13]利用修改损失函数，加入coverage止，将此过程称为一次完整交互。智能体根据一次完整项，强制要求每个时间步的输出注意力分散，此方法在交互中获得的奖赏通过强化学习算法来更新智能体的一定程度上改善了重复问题，但是由于修改了损失函数，输出规则。

使得优化目标与真实目标存在了一定偏差。Liu等人[14]动作增加判别网络来评估生成的摘要，可以达到识别重复句子的效果，但是增加了一倍的计算量，且生成网络和判智能体奖赏环境别网络在训练时需要达到动态平衡，非常难以训练。

状态此外，在序列生成的任务中还有一个较为常见的问（a）强化学习的基本结构

题，称为曝光偏差（exposurebias）[15]

，即在训练过程中，解码器的每一个输入单词使用训练样本中正确输出的y评价上一个单词，而在测试阶段，解码器每一个输入单词为摘要生成指标y*自己的上一个输出单词，因此造成的测试与训练时结果模型奖赏x奖赏训练的偏差。经过较长时间的训练后，模型在训练集上的x样本ROUGE得分常常出现50以上，而测试集却只有30多。智能体环境这种现象说明产生了较为严重的过拟合，对最终的效果（b）摘要生成任务的强化学习结构带来一定的负面影响。

图1

模型整体结构

针对以上问题，本文研究思路如下：（1）对于重复问将强化学习应用在文本摘要生成任务中，结构如图题，对历史生成的单词增加注意力，使得模型在生成当1（b）所示，将评价指标和训练样本组合抽象为一个整体前单词时考虑到历史生成的单词，防止生成已经生成过作为环境，摘要生成模型抽象为一个智能体，一次完整的单词，称之为解码自注意力，同时考虑历史的注意力，的交互和训练过程为：

防止与之前的注意力过于相似，鼓励模型注意其他部（1）环境中由训练样本提供文本x，作为状态送入分，称之为存储注意力。（2）现有的注意力大多采用向量摘要生成模型。

点积来衡量相似度，但是实现更复杂的关系则无法实（2）摘要生成模型根据文本x生成摘要y，并送入现，因此我们对注意力计算方式改进为单层神经网络，环境。

使其具备避免重复的能力。（3）对于曝光偏差问题，根本（3）环境中的评价指标结合生成的摘要y与训练的解决方法是在训练时输入上一个时刻的输出，但是这样本中的参考摘要y*计算得分，将得分作为奖赏再返样会造成训练极不稳定通常不收敛，而借助强化学习

回给摘要生成模型，同到达终止状态，一次完整的交互（ReinforcementLearning，RL）[16]

，把整个模型当作一个

结束。

智能体（agent），将生成的摘要作为与参考摘要的ROUGE（4）摘要生成模型根据此次交互得到的奖赏通过强得分[17]

作为奖赏（reward），以生成的整个句子作为优化化学习算法训练生成模型。

目标来增加训练时的稳定性，最后通过策略梯度[18]2.2摘要生成模型结构组成

（policygradient）来训练。

摘要生成模型包括编码和解码两个步骤，编码时每

个时刻输入文本中的一个单词，其目的为让模型理解每

2方法与模型

个单词的意思和整体的意思；在解码时，第一个时刻输将使用到的符号做如下定义：ne表示编码器

入表示开始信号的特殊字符，其余时刻输入上一个生成（encoder）长度，nd表示解码器（decoder）长度，x={x1,

的单词，第i个时刻的输出为生成的第i个单词yi。解

党宏社，等：基于混合注意力与强化学习的文本摘要生成2020，56（1）187

码时的第三个时刻的摘要生成模型示意图如图2所示，建立一个临时单词表（仅在这个批次训练中使用）。

此时输入为y2输出为y3。生成模型以输出表示结束模型最终输出为每个单词的编号，再根据全局单词的特殊字符结束。本文主要改进了其中的注意力机制表和临时单词表还原出单词。

和上下文向量，模型的训练过程如下所示：

模型的基本结构包括嵌入层、编码器和解码器，我（1）输入单词序列经过嵌入层得到同样长度的向们的基本结构参考文献[10]，嵌入层为一个全连接层，量，再送入编码器中。

输入单词的编号，输出固定长度的词向量，词向量再输（2）对所有输入文本编码后，将编码信息送入解入编码器或解码器。编码器采用单层的双向LSTM，由码器。

前向LSTM（LSTMf

）和后向LSTM（LSTMb）组成，编（3）将上一个时刻的输出经过嵌入层送入解码器，得到当前时刻的输入。

码器的的输出由前后向LSTM的输出合并而成，即第i（4）计算存储注意力和解码自注意力，得到编码器个时间步的输出hi=[hif,hbi]。

与解码器的上下文向量。

2.4存储注意力

（5）将上下文向量和解码器输出送入生成与指针网为了防止生成重复的单词，引入存储注意力，即在

络，得到输出的单词。

每个解码时间步将注意力进行保存，在新的时间步得（6）重复（3）到（5）直到输出单词为表示结束的特殊到的注意力除以历史注意力之和，削弱之前注意力高字符或超过设定最大长度，至此完成整个摘要的输出。

的部分，增强之前较少关注的部分。解码器的第t个时（7）将生成的摘要与训练样本中的参考摘要通过评间步的输出对编码器每个时间步的注意力aet计算公式价指标计算奖赏，并由此训练生成模型。

如下：

下面分别对文本预处理、基本结构、存储注意力、解eeti=veTtanh(Whe

hi+Wsest+beti)

（1）

码自注意力、生成与指针网络、损失函数和强化学习进ì行详细介绍。

exp(eet)

, t=12.3文本处理和基本结构

αet=ïíexp(eet)ït-1,其他（2）

在将文章送入模型前，首先需要进行文本预处理，

ïexp(∑eeî

j=1j)

处理的过程如下：

（1）首先对所有的文章按照单词进行分割，截取固aet=softmax(αe

t)（3）

定长度的单词（如前400），长度不够的文章将在后面添其中，ve、Whe

、Wse和beti都是需要学习的参数。

加表示填充意义的特殊字符。

在传统的注意力机制中，没有对历史的注意力进行

（2）根据单词的出现频率对单词进行编号，取一定保存，因此传统的注意力机制的aet的计算公式为

长度的个数建立编号与单词一一对应的全局单词表（如aet=softmax(eet)。

选取出现频率最高的5万个单词）。

根据第t个时间步对编码器每个输出的注意力，可（3）在编码时将每个单词的编号输入模型，每个时以得到编码器的上下文向量（contextvector）cet，其计算刻输入一个。每个批次中未在全局单词表中的单词会

公式如下：

y3生成与指针网络编码器解码器上下文向量上下文向量存储注意力解码自注意力…编码器编码器嵌入层x1

xne

开始

y1y2

图2摘要生成模型在解码的第三个时刻的示意图

188

2020，56（1）ComputerEngineeringandApplications计算机工程与应用

ene

=∑ae（4）

bias”；其次，似然估计的目标与评价指标如ROUGE存i=1

tihi

在一定偏差，会出现损失函数的值降低，ROUGE反而升2.5解码自注意力

高，或相反。

除了临时存储注意力机制，还引入解码自注意力，

为解决这两个问题，构建了强化学习模型。将输入为了在生成新单词时可以对之前生成过的单词进行关的文本作为状态，网络模型作为Actor，输出的整个摘要注，防止重复。在第t>1个时间步时，解码器输出对于作为动作，输出摘要的ROUGE得分作为奖赏。构建的第0网络模型中，无论在训练还是在测试中解码器的输入均edtj=vdTtanh(Whdsj+Wsdst+bdtj)

（5）为自己上一个时刻的输出，因此可以避免曝光偏差的产a生。而由于奖赏的计算直接使用了最终的评价指标，因td=softmax(etd)（6）

其中，vd

、Wd此也不存在优化目标的偏差。

、Ws

d和btj

都是需要学习的参数。

d设θ为网络模型中所有可训练的参数，则训练的目在第t=1个时间步时，解码器上下文向量ct

为0向标为计算最优的θ使生成效果最好。在训练时，网络先量，当t>1时，cd

的计算公式如下：

生成摘要，然后计算奖赏，再计算损失函数关于θ的梯ctd=∑j

（7）

度，使用梯度下降的方法更新所有θ。

k=1tksi

将输出摘要y的奖赏记做R(y)，最大值为1最小值2.6生成与指针网络

为0，训练的目标为最大化生成摘要的期望奖赏，即损失第t个时间步最终输出单词的分布为Pv，表示单

函数LRL(θ)为负的期望奖赏：

词表中输出每个单词的概率，Pv与编码器的上下文向LRL(θ)=-Ey~Pθ(y)[R(y)]

（12）

量cet

、解码器的上下文向量cdt

和解码器当前输出st均nd有关，使用线性函数加softmax来计算：

其中，Pθ(y)=P(x)∏Pt=1

θ(yt|y1,…,yt-1,x)，表示网络输出Ptv

=softmax(Wout[cet

,cdt

,st]+bout)

（8）

句子y的概率。

其中Wout和bout是需要学习的参数。

根据策略梯度算法可以得到损失函数关于θ的然而Pt

v只能决定应该输出单词表中的某个单词，

梯度：

当需要原文中某个单词但是并不在单词表中时则无法∇θLRL(θ)=-Ey~Pθ(y)[R(y)∇θlnPθ(y)]（13）解决，因此需要使用指针网络，根据对输入单词的注意为了减小梯度的方差，向公式中增加基线b（baseline）：

力决定是否应该复制某个单词。

t∇θLRL(θ)=-Ey~Pθ(y)[(R(y)-b)∇θlnPθ(y)]

）

定义变量P

（14gen

决定根据Pv

来输出单词的概率，则

为了计算R(y)和b，定义了两种产生输出的规则，

1-Pgen表示复制某个单词的概率，

gen

的计算公式为：

用ys表示根据分布P(yts|y1s,…,yts-1,x)采样得到的输

Ptgen=σ(wtceTcet+wtcdTcd

t+wtsTst+btgen)（9）

出，用yg表示根据分布P(ytg|y1g,y2g,…,ytg

-1,x)贪婪得到其中wtce、wt

cd、wst和btgen是需要学习的参数，

σ为sig-的输出。

moid函数。

将R(yg

)作为优化目标，而R(ys)作为基线，得到式综合Pt

v和指针网络，得到最终输出单词yt的概

（14）所对应的损失函数为如下形式：

率为：

LRL=-(R(yg

)-R(ys

))Pt(yne

∑nd

lnP(ytg

|y1g

,y2g

,…,ytg

t)=PtgenPtv(yt)+(1-Ptgen)∑aeti(xi=yt)

（10）

t=1-1,x)（15）

i=1

当R(yg

)大于R(ys)时，当然，若单词表中不存在单词yt，则Pt

v(yt)=0。

该公式也可以直观的解释，需要增大输出使用贪婪方法得到摘要中每一个单词的2.7损失函数与强化学习

概率，即最大化∑nd

lnP(ytg

|y1g

,y2g

在训练RNN做序列生成任务时，最常用的方法为

,…,ytg

其等价于t=1-1,x)，

“teacherforcing”[19]

，在解码的每个时间步以最大化似然最小化LRL。

估计作为目标进行网络的训练。用yt*表示正确的摘要在更新参数时，首先根据损失函数计算关于最外层中第t个单词，最大化似然估计等价于最小化下面的损参数的梯度，再根据链式求导法则逐层向前计算梯度，失函数：

然后选择优化方法（如Adagrad[21]）迭代更新参数。由于Lnd

如今的深度学习框架只需要构建前向计算图，然后根据ML=-∑lnP(yt*|y*

1,…,yt*-1,x)

（11）

t=1损失函数自动反向计算梯度，且计算梯度并不是本文的首先，使用这样的损失函数，训练时解码器输入为重点，因此省略损失函数关于模型中每个参数的梯度的真实输出，然后测试时为自身的输出，会造成“exposure

计算。

党宏社，等：基于混合注意力与强化学习的文本摘要生成2020，56（1）

189

3实验与分析表2

模型在测试集的ROUGE得分

3.1实验数据

模型RG-1RG-2RG-L选择在数据集CNN/DailyMail上进行训练并验抽取式35.4613.3032.65证，该数据集由网络新闻组成，平均一篇文章781个单PGC39.5317.2836.38词（tokens），每篇文章匹配一个平均3.75句话的摘要，平GAN39.9217.6536.71存储注意力36.5515.6334.74均56个单词。通过文献[13]提供的方法，获得了与其相混合注意力37.6016.8435.12同的287226个训练样本，13368个验证样本，11490个混合注意力加强化

40.23

17.93

37.12

测试样本，并在使用过程中未对样本进行预处理。

3.2模型参数

学习在一定程度上对现有问题起到较好的效果，且对比了Nallapati等人提出的抽取式的方法[10]、See等人提出对于所有的实验，词向量的维度为128，未使用预训

的Pointer-GeneratorCoverage（PGC）方法[13]以及Liu等练的词向量如word2vec[20]等，LSTM的内部状态为256人提出的GenerativeAdversarialNetwork（GAN）方法[14]，维，单词表使用5万个单词。优化方法使用Adagrad[21]，在三个指标中均有超越。

学习速率为0.15。使用文献[13]提供的预训练的模型，其中，抽取式的方法同样采用了序列到序列的架增加存储注意力、解码自注意力和强化学习。批大小构，但没有用来阅读文章和生成标题，而是在原文中选（batchsize）使用20，解码时使用beam为5的集束搜索择重要的单词抽取出来组合为摘要。PGC与本文架构（beamsearch）。

部分重合，不同的地方在于其采用传统的注意力机制，3.3实验环境

训练方法也使用的传统的“teacherforcing”的方法，但使用单台计算机，显卡为NVIDIAGeForceGTX

使用一种coverage方法强制解码时不同时刻注意力的1080Ti，CPU为IntelCorei7-7700K，4.2GHz，内存为分布要不同。采用GAN的方法包括两个网络架构、一32GB。使用ubuntu16.04操作系统，编程语言使用个生成器、一个判别器，而生成器同样使用传统注意力Python，版本为3.5，深度学习框架使用tensorflow[22]。

的序列到序列架构，使用判别器来区分生成的摘要和参3.4测试结果

考的摘要，而生成器的目标为生成高质量的摘要来骗过首先，在测试集上对比了基础结构、存储注意力、混

判别器，两个网络周期性交替训练。

合注意力以及混合注意力加强化的模型生成的摘要中同时，统计了PGC与加入混合注意力和混合注意的重复情况。统计了生成结果中含有重复的2单词组、力加强化的模型在训练集训练时的ROUGE得分，如表3单词组和句子的样本占总测试集大小的百分比，统计3所示。

结果如表1所示。

表3

模型训练收敛时的ROUGE得分

表1

生成摘要中的重复率

模型

RG-1RG-2RG-L模型2单词组3单词组句子PGC56.7231.2153.12基础结构16.314.27.7混合注意力51.3229.3748.34存储注意力6.64.91.2混合注意力加强化

40.10

17.43

36.67

混合注意力3.31.20结合训练和测试时的ROUGE得分，不难发现PGC混合注意力加强化

3.11.10参考摘要

1.5

0.3

和混合注意力模型在训练集的得分远高于测试集的得分，这就说明产生了曝光偏差，也就产生了较严重的过由统计结果得知，参考摘要中单词组重复率非常拟合，主要原因是在训练时每个时间步输入为参考摘要低，且不存在句子重复，而基础结构存在大量的重复单的上一个单词，因此模型是在已知上一个单词的情况下词组和句子，增加存储注意力后无论是单词组还是句子去预测下一个单词的。这种过拟合所带来的最直接的影的重复率大大下降；而增加混合注意力后单词组的重复响就是恶化了测试集的结果。而使用强化学习这种方率又大幅下降，且句子已经没有重复；但增加强化学习法使得模型在训练集和测试集的结果基本接近，也就消对于重复问题的帮助并不是特别明显。

除了曝光偏差，最终在测试集的效果带来一定的提高。

对于生成的摘要，使用ROUGE-1（RG-1）、ROUGH-2（RG-2）和ROUGE-L（RG-L）为评价指标，来衡量生成的4结束语

摘要与参考摘要的相似程度，值越大表明相似程度越本文针对文本摘要生成的任务，采用Seq2Seq架

高，在使用强化学习的模型中的优化目标为ROUGE-L。构，引入存储注意力和解码自注意力来解决重复问题，测试结果如表2所示。

使用指针网络来解决OOV单词的输出，引入强化学习在基本结构上增加存储注意力、混合注意力和混合来针对评价指标做定向优化并解决“exposurebias”问注意力加强化的效果依次增加，说明混合注意力与强化

题。使用数据集CNN/DailyMail对本文模型进行验

1902020，56（1）ComputerEngineeringandApplications计算机工程与应用

证，实验结果表明混合注意力机制和强化学习可分别带words[J].arXiv：1603.08148，2016.

来一定程度的优化，最终效果超越了世界先进的模型。

[12]VinyalsO，FortunatoM，JaitlyN.Pointernetworks[C]//

对于文本摘要生成，有很多还可以探讨的地方，如：AdvancesinNeuralInformationProcessingSystems，（1）词嵌入可以使用最先进的预训练模型（如BERT[23]

2015：2692-2700.

或XLNet[24]）。

[13]SeeA，LiuPJ，ManningCD.Gettothepoint：Summa-（2）网络架构除了Seq2Seq，也可选用ConvS2Srizationwithpointer-generatornetworks[J].arXiv：1704.（ConvolutionalSequencetoSequence[25]）、全注意力模04368，2017.

型[5]

或神经微分方程[26]

等。

[14]LiuL，LuY，YangM，etal.Generativeadversarialnet-workforabstractivetextsummarization[C]//Proceedings（3）解码部分可以引入逆强化学习（InverseRein-ofThirty-SecondAAAIConferenceonArtificialIntelli-forcementLearning）[27]

来对网络的生成结果进行评估，

gence，2018：8109-8110.

并使用蒙特卡洛树搜索（MonteCarloTreeSearch）[28]

[15]RanzatoMA，ChopraS，AuliM，etal.Sequencelevel

来寻找最优的生成结果。

trainingwithrecurrentneuralnetworks[J].arXiv：1511.06732，2015.

参考文献：

[16]MnihV，KavukcuogluK，SilverD，etal.Human-level

[1]WangL，YaoJ，TaoY，etal.Areinforcedtopic-aware

controlthroughdeepreinforcementlearning[J].Nature，convolutionalsequence-to-sequencemodelforabstractive2015，518：529.

textsummarization[J].arXiv：1805.03616，2018.

[17]LinCY.Rouge：Apackageforautomaticevaluationof

[2]BarzilayR，McKeownKR.Sentencefusionformultidoc-summaries[C]//WorkshoponTextSummarizationBranchesumentnewssummarization[J].ComputationalLinguistics，Out，2004.

2005，31（3）：297-328.

[18]SuttonRS，McAllesterDA，SinghSP，etal.Policy

[3]KraaijW，SpittersM，HulthA.Headlineextractionbased

gradientmethodsforreinforcementlearningwithfunctiononacombinationofuni-andmultidocumentsummarizationapproximation[C]//AdvancesinNeuralInformationPro-techniques[C]//ProceedingsoftheACLWorkshoponcessingSystems，2000：1057-1063.

AutomaticSummarization/DocumentUnderstandingCon-[19]WilliamsRJ，ZipserD.Alearningalgorithmforcontin-ference，2002.

uallyrunningfullyrecurrentneuralnetworks[J].Neural[4]XingC，WuW，WuY，etal.Topicawareneuralresponse

Computation，1989，1（2）：270-280.

generation[C]//ProceedingsofAAAI2017，2017：3351-3357.[20]MikolovT，ChenK，CorradoG，etal.Efficientestimation

[5]VaswaniA，ShazeerN，ParmarN，etal.Attentionisall

ofwordrepresentationsinvectorspace[J].arXiv：1301.youneed[C]//AdvancesinNeuralInformationProcessing3781，2013.

Systems，2017：5998-6008.

[21]DuchiJ，HazanE，SingerY.Adaptivesubgradientmethods

[6]DorrB，ZajicD，SchwartzR.Hedgetrimmer：Aparse-and-foronlinelearningandstochasticoptimization[J].Journaltrimapproachtoheadlinegeneration[C]//ProceedingsofofMachineLearningResearch，2011，12：2121-2159.[22]AbadiM，BarhamP，ChenJ，etal.Tensorflow：Asystem

theHLT-NAACL’03onTextSummarizationWorkshop，forlarge-scalemachinelearning[C]//ProceedingsofOSDI2003：1-8.

2016，2016：265-283.

[7]NallapatiR，ZhaiF，ZhouB.SummaRuNNer：Arecurrent

[23]DevlinJ，ChangMW，LeeK，etal.Bert：Pre-training

neuralnetworkbasedsequencemodelforextractiveofdeepbidirectionaltransformersforlanguageunder-summarizationofdocuments[C]//ProceedingsofAAAIstanding[J].arXiv：1810.04805，2018.

2017，2017：3075-3081.

[24]YangZ，DaiZ，YangY，etal.XLNet：Generalizedautore-[8]SutskeverI，VinyalsO，LeQV.Sequencetosequence

gressivepretrainingforlanguageunderstanding[J].arXiv：learningwithneuralnetworks[C]//AdvancesinNeural1906.08237，2019.

InformationProcessingSystems，2014：3104-3112.[25]GehringJ，AuliM，GrangierD，etal.Convolutional

[9]ChopraS，AuliM，RushAM.Abstractivesentencesum-sequencetosequencelearning[J].arXiv：1705.03122，2017.marizationwithattentiverecurrentneuralnetworks[C]//[26]ChenRTQ，RubanovaY，BettencourtJ，etal.Neural

Proceedingsofthe2016ConferenceoftheNorthAmer-ordinarydifferentialequations[J].arXiv：1806.07366，2018.icanChapteroftheAssociationforComputationalLin-[27]WulfmeierM，OndruskaP，PosnerI.Maximumentropy

guistics：HumanLanguageTechnologies，2016：93-98.deepinversereinforcementlearning[J].arXiv：1507.04888，[10]NallapatiR，ZhouB，GulcehreC，etal.Abstractivetext

2015.

summarizationusingsequence-to-sequencernnsandbe-[28]YuL，ZhangW，WangJ，etal.Seqgan：Sequencegenerative

yond[J].arXiv：1602.06023，2016.

adversarialnetswithpolicygradient[C]//Proceedingsof[11]GulcehreC，AhnS，NallapatiR，etal.Pointingtheunknown

Thirty-FirstAAAIConferenceonArtificialIntelligence，2017.

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文