记者刘勇、毕玉才日前在东北大学获悉,由该校教授王国仁牵头研发的项目“海量异构数据集成管理与分析技术及应用”,成功破解大数据集成质量、管理效率和分析可伸缩性等关键难题,实现对异构大数据的集成、管理、分析,将对我国“数字水资源”“数字医疗”和“数字国土资源”等领域海量异构数据集成管理与分析发挥不可替代的重要作用。
据介绍,大数据处理过程中的海量数据已远远超出了人们掌握和理解数据的能力。特别是异构数据,由于缺乏统一的格式与规范,在各部门和各软件系统中的流动与共享困难重重。针对这些难题,王国仁带领研究团队开展攻关,从模式匹配、数据清洗、数据管理和数据分析等关键技术切入,成功设计出一套基于人机交互的数据集成体系。与当前国际上最先进的数据清洗系统相比,该系统数据集成质量提升10%以上,集成方法的可用性居世界领先水平,与国际通用的系统相比,数据管理效率提升50%以上,并在国际上率先提出了面向大数据的分布式极限学习机数据分析技术。该系统的平台可伸缩性、数据可伸缩性、隐层节点可伸缩性、数据标注可伸缩性最高提升近20倍。