本网讯(通讯员叶雪军)11月18日,我院教师李晶晶、叶雪军、王婷、邱月收到中国地质大学蒋良孝教授的邀请,参加了中国计算机学会人工智能与模式识别专委会CCF-AI走进高校报告会,报告会主题是“数据挖掘与机器学习”。数据挖掘与机器学习已广泛应用于各个学科领域(如计算机科学与技术、信息管理与信息系统、应用数学与统计、自动化过程与控制等)。数据挖掘是指从大量数据中提取知识,机器学习则是指利用经验来改善计算机系统自身的性能。数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析数据,利用数据库界提供的技术来管理数据。数据挖掘是面向挖掘的任务,而机器学习是面向学习的技术,二者既有区别又有联系。
报告会特邀天津大学计算机学院胡清华教授介绍了“考虑数据分布特性的机器学习算法”,随着机器学习面对的数据规模不断扩大,如何针对数据的特性设计相应的学习算法变得越来越重要,数据在特征空间的概率分布信息是设计学习算法的重要信息,但遗憾的是很难获得高维空间中样本的统计分布,但数据在特征空间、类别上以及建模残差的某些弱统计信息还是可以通过数据提取的。在报告中简要介绍如何获取此类信息,并在分类、回归和数据量化学习中如何融入数据的分布信息。
北京交通大学计算机学院于剑教授会上介绍了“机器学习:从公理到算法”。在大数据时代,因应用需求的驱动,大量新机器学习方法不断产生,这些新算法理论依据各异,彼此之间的关系及其复杂,对使用者要求极高。但是,儿童的学习能力极高,却不能掌握现今机器学习的理论。是否能够提出一套符合人类认知的机器学习理论,是当前一个亟待解决的问题。本次报告将提出一个统一基于认知的机器学习公理化框架,其基本假设是:归哪类,像哪类;像哪类,归哪类。该公理框架可以推演出归类方法的三条设计原则,以统一的方式重新解释了数据降维、密度估计、回归、聚类和分类等问题,而且与日常生活中的认知原则一致。
东南大学计算机科学与工程学院耿新教授会上介绍了“机器学习中的标记分布和标记增强”。许多机器学习任务都可以泛化为对给定的示例预测不同标记的描述度,而所有标记对一个示例的描述度构成该示例的标记分布,在以标记分布标注的数据集中学习的过程称为标记分布学习。现实世界中存在不少本身就具有标记分布信息的数据,而更多情况下,标记分布信息不完整时,可以通过先验知识或者机器学习方法生成完整的标记分布,这一过程称为标记增强。标记分布学习方法配合标记增强发放能够有效匹配大多数有监督学习问题,具有广泛的应用前景。
通过积极参与本次学术活动,我院教师充分体验了从重在模式创新的“互联网+”到技术创新的“智能+”时代,利用机器学习及深度学习等人工智能技术,深度挖掘并充分利用大数据的价值,实现更精准分析的一系列应用。通过参加数据挖掘与机器学习学科专业领域的学术交流,促进本领域学者间的了解与合作,激发并永葆青年学者的科研激情,快速提升青年学者的学术水平。