Skip to content

snowhyzhang/ml-landing

Repository files navigation

ml-landing

ml-landing项目旨在讨论机器学习项目如何工程落地,因此,本项目不会涉及算法的原理,算法的具体实现过程等偏理论的一些内容,主要的内容将放在如何预处理我们的数据,如何将一个机器学习项目工程化和落地,帮助大家在实际项目中如何使机器学习被应用。

项目概览

ml-landing将会分成四个部分

  • 数据来源

对于机器学习来说,数据是至关重要的,没有数据,机器学习也无从谈起,因此,第一步我们将讨论如何从数据源中获取数据。

  • 数据预处理

机器学习中,有一句常被提起的话:garbage in, garbage out,在机器学习中,意思是如果数据清理的不干净,数据质量低下,那么再好的算法,输出的模型也是无用的。因此,数据预处理在整个机器学习过程中,起到了非常大的作用,没有一个好的预处理,往往产出的模型也是无用的。因此,我们将在章节讨论一些常用的数据预处理方法。

  • 模型

本章我们将会讨论如何建立一个模型。首先我们会按前两章所述,简要的讲解一下数据读入和预处理。然后我们将讨论建模的过程,如超参数的选择,模型评估指标等,我们将着重讲述一些实践中的经验,不会深入讲解模型的算法等。

  • 部署

建模完成,如何将模型应用于实际的业务场景是本章所有讨论的内容。

关于Landing

每章最后都有一个Landing的小节,在这一小节中,我们将会从实战角度出发,所有的代码可以在code文件夹下查看。

涉及的库

本项目主要涉及到的库有

  • pandas:用于数据读写,清洗等
  • scikit-learn:用于数据特征变换、训练模型和对模型的评估等
  • flask:用于部署机器学习,搭建API服务

About

机器学习工程化与落地

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published