社会媒体计算与自然语言处理专刊
量子语言模型研究综述
张鹏, 马鑫典, 宋大为
中国科学: 信息科学, 2018, 48(11): 1467-1486
摘要 语言模型是自然语言处理相关领域研究工作的重要基础.近年来,人们基于量子力学概率理论提出量子语言模型.本文旨在综述量子语言模型的研究动机和当前进展.我们首先回顾语言模型的研究现状及存在的问题,然后介绍信息检索领域和语音处理领域的量子语言模型,以及我们所提出的应用于自动问答领域的端到端的量子语言模型.通过分析各种量子语言模型的优缺点,以及量子力学与神经网络的本质联系,提出进一步的研究思路与未来愿景.
关键词 语言模型; 量子语言模型; 神经网络; 信息检索; 量子力学; language model; quantum language model; neural network; information retrieval; quantum mechanics;
Peng ZHANG, Xindian MA, Dawei SONG. A survey of quantum language models. Sci Sin Inform, 2018, 48(11): 1467-1486, doi: 10.1360/N112018-00163
社会媒体计算与自然语言处理专刊
基于微型人工语法范式的语言学习实证研究综述
耿立波, 杨丽, 杨亦鸣
中国科学: 信息科学, 2018, 48(11): 1487-1496
摘要 自1967年美国心理学家Reber首次设计和使用了微型人工语法学习范式以来,人工语法的发展已有半世纪的历史.本文从语言学习视角出发,讨论人工语法发展以来4种类型(有限状态语法下的经典微型人工语法学习范式、有限状态语法下的无语义型微型人工语法学习范式、非有限状态语法下的调控语义型微型人工语法学习范式以及"迷你"自然语言型微型人工语法学习范式)的相关实证研究及其在语言学习领域的深远意义.
关键词 语言学习; 微型人工语法; 人工语言; 第二语言; 内隐学习; language learning; AGL; artificial languages; second language; implicit learning;
Libo GENG, Li YANG, Yiming YANG. An empirical review of language learning based on the micro-artificial grammar-learning paradigm. Sci Sin Inform, 2018, 48(11): 1487-1496, doi: 10.1360/N112018-00166
社会媒体计算与自然语言处理专刊
迈向创造性语言生成: 汉语幽默自动生成的探索
谭红叶, 闫真, 李茹, 敬毅民
中国科学: 信息科学, 2018, 48(11): 1497-1509
摘要 幽默生成是计算创造性任务之一,能够赋予计算机一定的个性化与创造性,而且可以提升用户体验.本文以笑话的生成进行汉语幽默生成的探索性研究.首先提出一个符合当前自然语言生成技术的笑话生成任务:给定笑话的主体部分,生成相应的笑点句.然后,尝试了基于经典编码器–解码器框架的方法与基于生成对抗网络的方法来完成该任务.为了克服编码器–解码器框架中对幽默特点没有建模的局限,本文在生成对抗网络方法中融入了歧义性、不一致性、语音相似性、普遍性等笑话属性特征来评价、指导笑话的生成.实验结果表明:在生成对抗网络方法中融入笑话属性特征后,系统输出构成笑话的比例提升6个百分点.尽管从总体来看系统自动生成的笑点句构成笑话的比例还偏低,但本文通过对幽默生成问题的研究探索,带动了对创造性语言生成问题的洞察与理解,标志着我们向创造性语言生成的探索迈进了一步.
关键词 幽默生成; 笑话生成; 深度学习; 编码器–解码器框架; 生成对抗网络; generation of humors; generation of jokes; deep learning; encoder-decoder framework; generative adversarial networks;
Hongye TAN, Zhen YAN, Ru LI, et al. Towards creative language generation: exploring Chinese humor generation. Sci Sin Inform, 2018, 48(11): 1497-1509, doi: 10.1360/N112018-00158
社会媒体计算与自然语言处理专刊
基于多维语义关系的谐音双关语识别模型
徐琳宏, 林鸿飞, 祁瑞华, 杨亮
中国科学: 信息科学, 2018, 48(11): 1510-1520
摘要 谐音双关语的识别是幽默研究领域的一个重要分支,并逐渐发展为一个新兴的研究领域.本文提出一种基于4个维度特征集的谐音双关语识别模型,其中4个维度包括语义透明度、语义相关度、语音扩展性和语法特征集.语义透明度包括词项统计和语句字符长度两个特征,语法特征集包括人名、大写、时态、词性和位置5个特征.将这4个维度的9个特征加入到二叉判定树中,使用K-Means聚类获取阈值,完成双关语的识别.本文的实验数据来自于SemEval2017任务7的语料,取得了较好的效果, F1值高于参赛队中的第一名,实验证明基于4个维度特征的二叉判定树分类方法在谐音双关语识别中是有效的,并且在多个特征中,语音扩展性和语法特征集的效果比较明显,这也符合谐音双关语识别中语音作用较大的预测.
关键词 谐音双关语; 情感分析; 二叉判定树; 语义特征集; 聚类; heterographic pun; sentiment analysis; binary decision tree; semantic feature set; cluster;
Linhong XU, Hongfei LIN, Ruihua QI, et al. Heterographic pun identification model based on multi-dimensional semantic relationships. Sci Sin Inform, 2018, 48(11): 1510-1520, doi: 10.1360/N112018-00151
社会媒体计算与自然语言处理专刊
融合知识表示的知识库问答系统
安波, 韩先培, 孙乐
中国科学: 信息科学, 2018, 48(11): 1521-1532
摘要 基于知识库的问答系统能够根据知识库中的事实自动回答自然语言的问题.简单问题是指可以通过知识库中单一的事实来进行回答的问题,这类问题也是最常见的问题.但是当面对大规模的知识库时,简单问题依然存在很大的挑战.当前的端到端(end-to-end)模型主要依赖于对问句、实体和关系的文本描述进行表示学习,进而根据这些表示来计算实体、关系与问句的语义相关度,忽略了知识库中的实体和关系的结构信息.而这些结构信息,对于问句中实体和关系的识别有重要作用.本文采用一种融合文本和知识的表示学习方法,通过文本表示和组合模型来学习问句和知识的表示,同时使用知识的结构信息来约束文本的表示和组合.在基于知识的问答任务上的结果表明,本文提出的方法学习到的问句和知识的表示能很好地反映问句与知识之间的语义相关性,并显著地提升了问句中实体链接和关系识别的准确率.
关键词 问答系统; 知识库; 文本组合; 知识表示; 文本表示; question answering system; knowledge base; word composition; knowledge representation; text representation;
Bo AN, Xianpei HAN, Le SUN. Knowledge-representation-enhanced question-answering system. Sci Sin Inform, 2018, 48(11): 1521-1532, doi: 10.1360/N112018-00208
社会媒体计算与自然语言处理专刊
结合实体共现信息与句子语义特征的关系抽取方法
马语丹, 赵义, 金婧, 万怀宇
中国科学: 信息科学, 2018, 48(11): 1533-1545
摘要 实体关系抽取是信息抽取领域的重要任务之一,也是知识图谱构建的一个关键环节.现有的关系抽取方法大多都是围绕实体对从句子中抽取上下文语义特征,然后进行关系分类,这忽略了实体在整个语料集中的全局上下文特征.本文提出了一种新颖的结合实体共现信息与句子语义信息的神经网络(CNSSNN)模型,用于实体关系抽取.该模型首先构造整个语料集蕴含的实体共现关系网络,并通过引入注意力机制有侧重地提取实体的网络环境信息,从而为各个实体生成语料级全局上下文特征,同时利用双向门控循环单元网络(bi-GRU)为实体对提取句子级上下文语义特征,最后将语料级特征和句子级特征结合起来,进行实体关系抽取.在公开数据集和人工标注的数据集上的实验结果表明,本文提出的方法其准确率和召回率要明显优于其他现有方法.
关键词 信息抽取; 实体关系抽取; 实体共现网络; 注意力机制; 门控循环单元; information extraction; entity relation extraction; entity co-occurrence network; attention mechanism; gated recurrent unit;
Yudan MA, Yi ZHAO, Jing JIN, et al. Combining entity co-occurrence information and sentence semantic features for relation extraction. Sci Sin Inform, 2018, 48(11): 1533-1545, doi: 10.1360/N112018-00157
社会媒体计算与自然语言处理专刊
基于句法和语义特征的疾病名称识别
何云琪, 刘苏文, 钱龙华, 周国栋
中国科学: 信息科学, 2018, 48(11): 1546-1557
摘要 生物医学实体识别(如基因/蛋白质、化学物和疾病等)是生物医学文本挖掘的基础,它对生物医学实体关系的抽取和生物医学知识库的建立等方面都有着重要的研究意义.针对目前的疾病名称识别中存在的问题,本文提出了一系列新的句法特征和语义特征来提高疾病名称识别的性能,其中句法特征包括组块和依存信息,语义特征包括疾病名称的缩写信息、字典信息和疾病概念之间的上下位关系等.在NCBI疾病语料库上的实验表明,结合一系列句法和语义特征的CRF模型可以显著提高疾病实体识别的性能,取得了目前该语料库上的最高F1值85.3%.
关键词 疾病名称识别; 条件随机场; 句法特征; 语义特征; disease name recognition; conditional random fields; syntactic features; semantic features;
Yunqi HE, Suwen LIU, Longhua QIAN, et al. Disease name recognition based on syntactic and semantic features. Sci Sin Inform, 2018, 48(11): 1546-1557, doi: 10.1360/N112018-00210
社会媒体计算与自然语言处理专刊
基于分层注意力网络的社交媒体谣言检测
廖祥文, 黄知, 杨定达, 程学旗, 陈国龙
中国科学: 信息科学, 2018, 48(11): 1558-1574
摘要 在社交媒体谣言检测问题上,现有的基于特征表示学习的研究工作大多数先把微博事件划分为若干个时间段,再对每个时间段提取文本向量表示、全局用户特征等,忽略了时间段内各微博间的时序信息,且未利用到在传统机器学习方法中已取得较好效果的文本潜在信息和局部用户信息,导致性能较低.因此,本文提出了一种基于分层注意力网络的社交媒体谣言检测方法.该方法首先将微博事件按照时间段进行分割,并输入带有注意力机制的双向GRU网络,获取时间段内微博序列的隐层表示,以刻画时间段内微博间的时序信息;然后将每个时间段内的微博视为一个整体,提取文本潜在特征和局部用户特征,并与微博序列的隐层表示相连接,以融入文本潜在信息和局部用户信息;最后通过带有注意力机制的双向GRU网络,得到时间段序列的隐层表示,进而对微博事件进行分类.实验采用了新浪微博数据集和Twitter数据集,实验结果表明,与目前最好的基准方法相比,该方法在新浪微博数据集和Twitter数据集上正确率分别提高了1.5%和1.4%,很好地验证了该方法在社交媒体谣言检测问题上的有效性.
关键词 谣言检测; 分层注意力网络; 社交媒体; 时序信息; 深度学习; rumor detection; hierarchical attention network; social media; time series information; deep learning;
Xiangwen LIAO, Zhi HUANG, Dingda YANG, et al. Rumor detection in social media based on a hierarchical attention network. Sci Sin Inform, 2018, 48(11): 1558-1574, doi: 10.1360/N112018-00134
社会媒体计算与自然语言处理专刊
去中心化的微博传播动力学建模
高金华, 刘悦, 程学旗
中国科学: 信息科学, 2018, 48(11): 1575-1588
摘要 社交网络的功能正逐步由网络社交转变为社交媒体,极大地方便了消息的传播,也使得消息的流行度预测问题变得更具有挑战性.传统的流行度预测方法包含基于特征的有监督学习方法和基于随机过程的传播动力学建模方法.其中,基于随机过程的传播动力学建模方法由于具有更好的个体预测能力,吸引了研究人员的广泛关注.但是,现有的传播动力学建模方法在建模时,都忽略了社交平台中消息传播所呈现出的去中心化特点.本文以微博平台中消息的传播数据为基础,分析了微博消息的去中心化传播现象,并提出了一种叠加自增强泊松过程(reinforced Poisson process, RPP)模型的方法来刻画消息的传播动力学变化.每一条信息的传播过程都被拆分为几个传播子过程的叠加,而每个传播子过程可以用RPP模型很好的建模.在真实数据集上的结果表明,本文所提出的方法在刻画消息的传播过程以及预测消息的流行度变化等方面,都要优于现有的方法.
关键词 社交网络; 社交媒体; 流行度预测; 去中心化; RPP模型; social network; social media; popularity prediction; decentralization; RPP model;
Jinhua GAO, Yue LIU, Xueqi CHENG. Decentralized cascade dynamics modeling. Sci Sin Inform, 2018, 48(11): 1575-1588, doi: 10.1360/N112018-00081