大数据分析专题

大数据分析专题编者按

周志华, 张敏灵
中国科学: 信息科学, 2020, 50(6): 779-780

关键词 特征选择算法; 特征选择方法; 冗余性; 文本关系; 数据挖掘;

引用格式 周志华, 张敏灵. 大数据分析专题编者按. 中国科学: 信息科学, 2020, 50(6): 779-780, doi: 10.1360/SSI-2020-0155

计算机人工智能论文 Website Google Scholar PDF SCOPUS引次: 14

摘要自步学习是近年来机器学习领域提出的一种启发于人和动物"由易到难"学习过程的学习机制.尽管自步学习已取得可喜的理论与应用进展,但是当前的自步学习算法仍存在超参数选择的瓶颈问题.针对该问题当前主要采用一些启发式的手工设计方法或者交叉验证方法,然而此类方法效率很低,缺乏理论性指导,难以推广应用到广泛的实践问题中.针对这一挑战性问题,本文提出一种基于元学习机理的自步学习算法,该方法能使自步学习中涉及的超参数以数据驱动的方式自动习得,从而大大减弱了自步学习的这一核心问题.特别地,我们针对3种典型的自步学习实现格式,将所提元学习策略实质性嵌入,通过回归和分类实验验证了所提算法的准确性和泛化性,特别验证了相比于传统超参设置方法的显著优越性.

关键词 自步学习; 元学习; 样本加权; 噪声标记下学习; 超参数选择; self-paced learning; meta learning; sample re-weighting; learning with noisy labels; hyper-parameter tuning;

引用格式 束俊, 孟德宇, 徐宗本. 元自步学习. 中国科学: 信息科学, 2020, 50(6): 781-793, doi: 10.1360/SSI-2020-0005
Jun SHU, Deyu MENG, Zongben XU. Meta self-paced learning. Sci Sin Inform, 2020, 50(6): 781-793, doi: 10.1360/SSI-2020-0005

计算机人工智能论文 Website Google Scholar PDF SCOPUS引次: 3

基于众包学习的交互式特征选择方法

陈长建, 姜流, 雷娜, 刘世霞
中国科学: 信息科学, 2020, 50(6): 794-812

摘要集成特征选择算法将多种特征选择方法结果结合在一起,旨在得到更加有效的特征子集.然而这些算法通常假设每种特征选择方法是平等的,没有考虑不同特征选择方法性能的差异性,导致少数方法选择出的有效特征被忽略.为解决这一问题,本文提出一种可以有效地结合不同特征选择方法优势,并利用专家的知识逐步改善所选特征的交互式特征选择方法.该方法包括一个基于众包学习的集成特征选择算法和一个基于该算法开发的可视分析系统.基于众包学习的集成特征选择算法利用众包学习模型对不同特征选择方法的性能进行建模,计算每种方法的可靠性,并在此基础上将这些方法的结果有机融合.可视分析系统提供了丰富的排序方式,帮助专家理解单个特征选择方法的特征选择结果和特征在分类任务中所起的作用,从而让专家交互迭代地改善现有特征子集.在4个真实世界数据集上的数值实验表明,相比于现有的集成特征选择算法,本文提出的算法能够带来0.63%～2.85%分类准确率的提升.此外,在文本和图像数据集上进行的两个案例分析表明,本文提出的可视分析系统能够进一步带来0.28%～5.24%的分类准确率提升.

关键词 集成特征选择; 众包学习; 可视分析; 交互式可视化; 排序可视化; ensemble feature selection; learning-from-crowds; visual analysis; interactive visualization; ranking visualization;

引用格式 陈长建, 姜流, 雷娜, 等. 基于众包学习的交互式特征选择方法. 中国科学: 信息科学, 2020, 50(6): 794-812, doi: 10.1360/SSI-2019-0208
Changjian CHEN, Liu JIANG, Na LEI, et al. An interactive feature selection method based on learning-from-crowds. Sci Sin Inform, 2020, 50(6): 794-812, doi: 10.1360/SSI-2019-0208

计算机人工智能论文 Website Google Scholar PDF SCOPUS引次: 2

大数据分析专题

一种保持语义关系的词向量复用方法

李新春, 詹德川
中国科学: 信息科学, 2020, 50(6): 813-823

摘要在基于深度网络的自然语言处理任务中,嵌入表示层用词向量刻画词的语义信息,可以有效地提升模型性能.词向量可以和当前任务一起端到端地进行学习,但是从模型参数数量的角度来看,词向量的训练很容易在小语料库上过拟合.为了解决这个问题,通常会使用在大语料库上预训练得到的词向量.首先,本文总结了几种常见的复用预训练词向量的方法.其次,由于当前任务的变化,会有一些新词出现,这些新词的词向量不能通过预训练的词向量获得,因此本文提出了一种保持语义关系的词向量复用算法(SrpWer). SrpWer首先对当前数据集中词语之间的关系进行建模,然后结合预训练的词向量生成新词对应的词向量.实验结果验证了SrpWer的有效性.

关键词 自然语言处理; 词向量; 模型复用; 新词; 深度学习; natural language processing; word embeddings; model reuse; new words; deep learning;

引用格式 李新春, 詹德川. 一种保持语义关系的词向量复用方法. 中国科学: 信息科学, 2020, 50(6): 813-823, doi: 10.1360/SSI-2019-0284
Xinchun LI, Dechuan ZHAN. A semantic relation preserved word embedding reuse method. Sci Sin Inform, 2020, 50(6): 813-823, doi: 10.1360/SSI-2019-0284

计算机人工智能论文 Website Google Scholar PDF SCOPUS引次: 14

大数据分析专题

基于邻域视角的关联关系挖掘方法

成红红, 钱宇华, 胡治国, 梁吉业
中国科学: 信息科学, 2020, 50(6): 824-844

摘要识别海量变量间潜在的复杂关联关系,判断不同形式关联关系的强弱,是大数据关联关系挖掘的重要任务之一.然而,数据分布的不确定性、关联关系的多样性,使得基于分布假设的关联关系度量和基于数据驱动的非参数度量方法的适用性、准确性难以保证.因此,设计一种对关联关系形式无偏的有效关联度量方法变得至关重要.本文从大数据背景下潜在关联关系应被公平排序的需求出发,回顾了目前关联度量的公理化条件,给出了大数据关联关系度量可能需满足的性质;讨论了两类基于邻域视角的度量方法存在的不足;提出了本文基于k-NN粒的关联度量方法,称为最大邻域系数.人造数据集和真实数据集实验从不同角度验证了本文所提方法的有效性和优越性.最后指出了实验中发现的有趣现象和有待解决的理论问题,以引起对该领域更深入的思考和研究.

关键词 大数据; 复杂关联关系挖掘; 关联度量; 数据驱动; 粒计算; k-NN粒; big data; complex associations mining; association measure; data-driven; granular computing; k-NN granule;

引用格式 成红红, 钱宇华, 胡治国, 等. 基于邻域视角的关联关系挖掘方法. 中国科学: 信息科学, 2020, 50(6): 824-844, doi: 10.1360/SSI-2020-0009
Honghong CHENG, Yuhua QIAN, Zhiguo HU, et al. Association mining method based on neighborhood perspective. Sci Sin Inform, 2020, 50(6): 824-844, doi: 10.1360/SSI-2020-0009

计算机人工智能论文 Website Google Scholar PDF SCOPUS引次: 2

大数据分析专题

一种高可读低冗余实体摘要的生成方法

刘庆霞, 程龚, 瞿裕忠
中国科学: 信息科学, 2020, 50(6): 845-861

摘要随着万维网的发展,知识图谱数据大量增长,并在面向智能应用的研究中受到广泛关注.知识图谱用RDF (resource description framework)三元组描述实体相关的事实.在知识图谱中,关于一个实体的描述可能包含大量三元组,在一些需要直接呈现实体信息的应用中,为了避免用户信息过载,并适应有限的呈现空间,就需要进行实体摘要.实体摘要任务是从实体描述的众多三元组中选出最有代表性的子集作为摘要,以呈现给用户阅读.本文提出一种新的实体摘要方法 ESSTER以生成具备高可读性和低冗余性的实体摘要.该方法结合三元组的结构与文本特征,基于结构特性度量知识图谱中三元组的重要性,基于N元语法和文本语料度量三元组的可读性,基于逻辑推理、数值比较和文本相似判断三元组间的冗余关系.综合这3种技术要素,将实体摘要问题建模为组合优化问题进行求解.本文在两个由人工标注的公开数据集上与6种现有方法进行了对比实验,结果表明本文提出的方法效果达到了当前最佳水平.

关键词 知识图谱; 实体摘要; 冗余性; 可读性; 组合优化; knowledge graph; entity summarization; redundancy; readability; combinatorial optimization;

引用格式 刘庆霞, 程龚, 瞿裕忠. 一种高可读低冗余实体摘要的生成方法. 中国科学: 信息科学, 2020, 50(6): 845-861, doi: 10.1360/SSI-2019-0291
Qingxia LIU, Gong CHENG, Yuzhong QU. Entity summarization with high readability and low redundancy. Sci Sin Inform, 2020, 50(6): 845-861, doi: 10.1360/SSI-2019-0291

计算机人工智能论文 Website Google Scholar PDF SCOPUS引次: 15

大数据分析专题

基于视觉—文本关系对齐的跨模态视频片段检索

陈卓, 杜昊, 吴雨菲, 徐童, 陈恩红
中国科学: 信息科学, 2020, 50(6): 862-876

摘要近年来,视频数据资源的日益丰富催生了一系列对于视频片段精细检索的需求.在这样的背景下,对于跨模态视频片段检索的研究逐渐兴起,其旨在根据输入的查询文本,输出一段视频中符合文本描述的片段.现有的研究工作主要关注于查询文本与视频片段的全局或局部的特征表达,而忽略了查询文本与视频片段中所蕴含的语义关系在跨模态检索中的匹配.例如,给定查询文本"一个人在打篮球"时,现有检索系统将根据整个查询文本和的视频的特征,或者关注于文本与视频中所表现的实体(如"人","篮球")来计算合适的视频片段,而缺乏对于"人打篮球"这类语义关系的考虑.因此,它们将难以辨别语义关系上的不同,从而限制了检索质量的提升.为了解决这个问题,本文提出跨模态关系对齐的图卷积框架CrossGraphAlign,通过分别构建文本关系图(textural relationship graph)与视觉关系图(visual relationship graph)来建模查询文本与视频片段中的语义关系,再通过跨模态对齐的图卷积网络来评估文本关系与视觉关系的相似度,从而帮助构建更加精准的视频片段检索系统.在公开的跨模态视频片段检索数据集TACoS和ActivityNet Captions上的实验结果表明,本文提出的方法可以有效地利用语义关系来提升跨模态视频片段检索的召回率.

关键词 关系对齐; 语言关系; 视觉关系; 图卷积网络; 跨模态视频片段检索; relationship alignment; textual relationship; visual relationship; graph convolutional network; cross-modal video moment retrieval;

引用格式 陈卓, 杜昊, 吴雨菲, 等. 基于视觉—文本关系对齐的跨模态视频片段检索. 中国科学: 信息科学, 2020, 50(6): 862-876, doi: 10.1360/SSI-2019-0292
Joya CHEN, Hao DU, Yufei WU, et al. Cross-modal video moment retrieval based on visual-textual relationship alignment. Sci Sin Inform, 2020, 50(6): 862-876, doi: 10.1360/SSI-2019-0292

计算机人工智能论文 Website Google Scholar PDF SCOPUS引次: 0

大数据分析专题

基于长短时预测一致性的大规模视频语义识别算法

王铮, 翁泽佳, 王锐, 陈静静, 姜育刚
中国科学: 信息科学, 2020, 50(6): 877-891

摘要片段视频语义识别旨在识别视频中短小片段的语义概念,是视频分析的一项重要任务.由于片段视频的数量巨大且缺乏可参考的网络标签,片段视频的标记十分困难,通常只能对部分片段视频进行标记.如何利用有限的语义标签提高片段视频语义识别的准确率是一项关键挑战.因此本文提出了一种基于长短时预测一致性的视频语义识别算法.该算法通过引入完整视频语义与片段视频语义一致性的约束,对片段视频语义识别结果进行筛选,以此提高片段视频语义识别的准确率.本文提出的算法在大规模视频数据集YouTube-8M的片段视频语义识别任务上达到了82.62%的平均均值准确率(mean average precision, MAP)识别精度,在第三届YouTube-8M比赛中排名第二.

关键词 大规模视频语义识别; 片段视频语义识别; 语义一致性; 特征聚合; 预测可靠性; large-scale video semantic recognition; segment-level semantic recognition; semantic consistency; feature aggregation; reliable prediction;

引用格式 王铮, 翁泽佳, 王锐, 等. 基于长短时预测一致性的大规模视频语义识别算法. 中国科学: 信息科学, 2020, 50(6): 877-891, doi: 10.1360/SSI-2020-0014
Zheng WANG, Zejia WENG, Rui WANG, et al. Large-scale video semantic recognition based on consistency of segment-level and video-level predictions. Sci Sin Inform, 2020, 50(6): 877-891, doi: 10.1360/SSI-2020-0014