业余休闲 主页 > 业余休闲 >

深度学习的不完全大数据填充算法

发布时间: 2019-01-31 14:03  浏览次数:

深度学习的不完全大数据填充算法

随着互联网、社交网络和电子商务技术的兴起和发展,数据正以前所未有的速度增长。大数据的研究和应用时代已经到来。在收集和传输大数据的过程中,每个链路都可能失败,导??致许多大数据集中大量丢失。大数据的不完整性对大数据的分析和处理提出了巨大的挑战。因此,填充不完整数据对于大数据的分析和处理具有重要意义。

近年来,信游平台提出了一些不完整的数据填充方法。包括最大期望的数据填充算法称为基于模糊聚类的填充算法和基于最近邻居对象的填充算法。这些算法在填充小规模数据集方面取得了显着成果。但是,在填充不完整的大数据方面,准确性大大降低。这是因为大数据具有丰富的信息维度,而传统的数据填充算法无法反映大数据的深层特征。

为解决这一问题,本文提出了一种基于深度学习的不完全大数据填充算法。

2填充自动编码器

本文构建的深度填充网络基于自动编码器的填充,并且从完整数据子集中随机抽取一部分数据对象作为示例,以训练自动编码器的网络参数。在构造填充自动编码的过程中,选择的数据对象用于模拟缺失的数据对象,并且随机设置每个实例数据对象的部分属性值,并将不完整的对象模拟为输入。填充自动编码器,通过使用实例原型最小化Train网络参数来重建数据。

根据随机梯度下降算法,每当从数据集中选择实例进行训练时,填充自动编码器首先随机选择实例的一些属性并设置其属性值。 ,获取一对数据,然后通过以下公式多次调整自动编码器的权重。网络参数这样更新,直到整个网络稳定。

3深度填充网络和数据填充

本文以自动编码器为基础模块,构建了三层网络模型。每层网络输出将用作上层网络的输入,顶层将作为提取的特征输出。培训过程分为两个阶段:预培训和微调。首先,从下往上进行逐层训练,得到网络初始化参数,最后通过反向传播算法对全局参数进行微调。

为了获得逐层训练监督对象,通过使用实例数据作为输入来构建叠加自动编码器,以获得实例数据的双层特征。在本文中,未处理的原始实例数据2用作网络输入。可以在最低级别获得第一层特征,并且该特征用作上层网络的输入以获得第二层特征。培训过程是本地的,即第二个。层网络更新该层的网络权重,对下层网络没有影响。以这种方式,可以初始化覆盖网络参数,并且最后通过反向传播算法微调网络全局参数。这使得可以获得与原始数据实例相对应的两层特征。从数据中取出实例以训练深度实例网络。在每次训练之后,网络参数被更新一次,直到整个网络趋于稳定,并且获得最终的网络参数。在获得网络参数后,本文首先提取不完整数据集中每个数据对象的深度特征。对于不完整的数据对象二,首先设置其缺失属性的属性值。

4实验分析

为了验证所提算法(DLDBI)的有效性,将所提算法与两种填充算法FIMUS和DMI进行了比较。本文中使用的数据集来自数字家庭和无线传感器网络实验室。数据集总数达到10U。每个数据对象包含650个数字属性。我们首先从数据集中手动删除部分数据,模拟不完整的数据集,填充完成后,将填充值与实际值进行比较,得到算法的填充精度。

深度学习的不完全大数据填充算法

在本文中,人工制造了两个缺失值,即单模删除和多模删除。在单模未命中,每个数字对象只允许包含一个缺失值,多模丢失允许每个数据对象包含多个缺失值。本文从数据集中选择15%和10%的数据对象,并删除这些数据对象的一些属性值以模拟缺失的数据。本文使用两个标准来衡量算法的填充精度。第一个标准称为标准。该标准用于测量填充值与实际值之间的匹配程度。对于任何类型的缺失组合,本文提出的算法明显高于其他两种算法。此外,随着数据丢失率的增加,FIMUS和DMI算法正在下降,即两种算法的填充精度随着数据丢失率的增加而降低。本文提出的算法的填充精度一直保持在很高的水平。因此,该算法的填充精度明显高于FIMUS和DMI。

对于缺失组合的任何组合,通过所提出的算法获得的RMSE明显低于其他两种算法。随着数据丢失率的增加,算法FIMUS和DM获得的RMSE不断增加,即两种算法的填充精度随着数据丢失率的增加而降低。通过本文提出的算法获得的RMSE一直很低。因此,就RMSE而言,所提算法的填充精度明显高于FIMUS和DMI。

信游平台提出的算法填充精度相对稳定。具体地,当数据删除率在1%和10%之间时,可以稳定地保持该值。此外,对于任何一个缺失率,单缺失模式的填充精度显着高于多缺失模型的填充精度。这是因为多填充模式具有大的缺失数据,并且由特征提取和减少引起的干扰高于单缺失模式。 。

本文提出了一种基于深度学习的不完全大数据填充算法。该算法具有丰富的大数据信息维度,构造深度填充网络类的深度特征,提取大数据,然后恢复缺失值。实验结果表明,该算法能有效提高数据填充精度。在下一步中,探索如何在多种丢失模式下提高数据填充精度。


上一篇:论信游娱乐创新能力的培养
下一篇:批量操作在计算机实验室管理中的应用