“集智百科精选”是一个长期专栏,持续为大家推送复杂性科学相关的基本概念和资源信息。作为集智俱乐部的开源科学项目,集智百科希望打造复杂性科学领域最全面的百科全书,欢迎对复杂性科学感兴趣、热爱知识整理和分享的朋友加入!

本文是对集智百科中“自动机器学习”词条的摘录,参考资料及相关词条请参阅百科词条原文。

本词条由集智俱乐部众包生产,难免存在纰漏和问题,欢迎大家留言反馈或者前往对应的百科词条页面进行修改,一经修改,可以获得对应的积分奖励噢!


目录


一、与常规机器学习方法的比较
二、自动机器学习的目标
三、编者推荐
四、百科项目志愿者招募

自动机器学习 Automated machine learning(AutoML)是指让机器学习得以自动应用于实际问题的过程。自动机器学习涵盖了从原始数据集到可部署机器学习模型的整个流程。作为一种基于人工智能的解决方案,自动机器学习被用来解决在机器学习应用方面日益增长的挑战。自动机器学习中高度的自动化允许非专业人员在无需成为该领域专家的前提下使用机器学习的模型和技术。


在机器学习的应用中,将端到端的过程自动化可以产生更多优势:生成更简单的解决方案、更快地创建这些解决方案,并且经常能设计出优于人工设计的模型。





与常规机器学习方法的比较



在一个典型的机器学习应用程序中,程序的使用者会使用一个由输入数据点组成的数据集去进行训练。原始数据本身的形式可能并不适用于所有算法。专家可能需要使用相应的数据预处理 data pre-processing 、特征工程 feature engineering、特征提取 feature extraction和特征选择方法 feature selectin methods等,使数据集适合机器学习。按照这些预处理步骤,程序的使用者必须执行算法选择 algorithm 和超参数优化 hyperparameter optimization,以最大限度地提升他们的机器学习模型的预测性能。显然,这些步骤都为它们自身带来了挑战。这些挑战一旦累积到一定程度,就会成为机器学习的重大障碍。


自动机器学习这一工具的不足之处就是对附加参数的依赖。这些参数可能需要一些专业知识才能得出。尽管有这些超参数存在,自动机器学习依旧极大地简化了非专业性机器学习的应用。





自动机器学习的目标



自动机器学习可以针对机器学习过程的不同阶段。从本质上看,这包括数据准备、特征工程、模型选择、评价指标的选择和超参数优化。


  • 自动化数据准备 automated data preparation 和数据摄入 ingestion (源于原始数据和混杂模式)

    • 自动化数据类型检测,例如:布尔数据,离散数值,连续数值或者文本

    • 自动化数据意图检测,例如:目标/标签,分层抽样 stratified sampling ,数值特征 numerical feature ,既定文本特征 categorical text feature以及自由文本特征 free tect feature 等

    • 自动化任务检测,例如:二分类 binary classification ,回归分析聚类,排序学习 learing to rank

  • 自动特征工程

    • 特征选择

    • 特征提取

    • 元学习和体征转化

    • 偏斜数据和缺失值的检测和处理

  • 自动模型选择

  • 特征工程和学习算法’中的超参数优化

  • 在时间,内存和复杂性约束下的自动化流水线式选择

  • 自动选择评估指标/验证程序

  • 自动问题检测

    • 数据泄露检测

    • 配置错误检测

  • 自动分析获得的结果

  • 用于自动机器学习的用户界面及可视性





编者推荐



相关文章

下一秒火焰如何燃烧?机器学习成功预测混沌

该文章是对Machine Learning’s ‘Amazing’ Ability to Predict Chaos的概述,介绍了机器学习预测混沌的理论基础及步骤。

论文速递集合


集智相关课程


课程:当复杂网络遇上机器学习

机器学习入门

https://campus.swarma.org/course/806
该课程由莫烦、张江和尹相志三位老师共同教授,主要介绍了机器学习的相关理论及常用分析方法等。

从Python到机器学习

https://campus.swarma.org/course/187
本系列课程将全面介绍深度学习入门的应用知识。包括从Python基础开始,到深度学习框架Tensorflow的使用方法。是一套简练风趣,易懂易学的入门课程。

机器学习思维

https://campus.swarma.org/course/2
本课程围绕机器学习思维,讨论机器学习的运用方法,能力范围,技术种类,以及机器学习与人类学习的不同点。

当复杂网络遇上机器学习

https://campus.swarma.org/course/584
本课程将对网络嵌入、图卷积神经网络、图注意力模型等新技术的算法及应用,以及多种网络嵌入算法,链路预测问题等问题座以一个简单介绍,并对网络上的深度学习问题进行了展望。




百科项目志愿者招募




作为集智百科项目团队的成员,本文内容由Yuling翻译,和光同尘审校,薄荷编辑。我们也为每位作者和志愿者准备了专属简介和个人集智百科主页,更多信息可以访问其集智百科个人主页。



以上内容都是我们做这项目的起点,作为来自不同学科和领域的志愿者,我们建立起一个有效的百科团队,分配有审校、翻译、编辑、宣传等工作。我们秉持:知识从我而来,问题到我为止的信念,认真负责编撰每一个词条。




在这里从复杂性知识出发与伙伴同行,同时我们希望有更多志愿者加入这个团队,使百科词条内容得到扩充,并为每位志愿者提供相应奖励与资源,建立个人主页与贡献记录,使其能够继续探索复杂世界。


如果你有意参与更加系统精细的分工,扫描二维码填写报名表,我们期待你的加入!



集智百科报名表


来源:集智百科

编辑:王建萍


推荐阅读



点击“阅读原文”,阅读词条自动机器学习原文与参考文献