Python之机器学习入门

引言

it技术的发展技术栈中,机器学习具有很大的应用场景和市场前景。

Python在机器学习技术方面也有不少的优势,例如可以方便使用的库如Numpy, sklearn, pandas等,当然还有tensflow和pytorch.

最近考虑使用机器学习来研究一下股票,因此对这方面进行了简单的涉猎。

下面简述一下基本的思路。

数据来源

如果需要进行机器学习,那么必须有好的数据或者语料,否则巧妇也难为无米之炊。

sklearn上面,有例子数据可以直接上手,非常方便,推荐入门使用。

数据清洗

有了数据源之后,我们需要对数据进行基础的清洗,例如对于不全的数据是直接去掉还是填充默认值。

特征工程

在完成数据清洗后,我们需要进行特征工程,换句话说,也就是再数据源进行特征识别,以供机器学习进行多维计算。每个特征都是目标的一个有意义的参考维度。

划分测试集和训练集

将数据源进行划分,为验证算法是否有效和正确

选择算法

如朴素贝叶斯分类、SVM、决策树、神经网络等,个人比较喜欢使用贝叶斯,简单方便。

小结

机器学习的重点还是在于特征工程和算法选择及调优。