Python之机器学习入门
引言
it技术的发展技术栈中,机器学习具有很大的应用场景和市场前景。
Python在机器学习技术方面也有不少的优势,例如可以方便使用的库如Numpy, sklearn, pandas等,当然还有tensflow和pytorch.
最近考虑使用机器学习来研究一下股票,因此对这方面进行了简单的涉猎。
下面简述一下基本的思路。
数据来源
如果需要进行机器学习,那么必须有好的数据或者语料,否则巧妇也难为无米之炊。
sklearn上面,有例子数据可以直接上手,非常方便,推荐入门使用。
数据清洗
有了数据源之后,我们需要对数据进行基础的清洗,例如对于不全的数据是直接去掉还是填充默认值。
特征工程
在完成数据清洗后,我们需要进行特征工程,换句话说,也就是再数据源进行特征识别,以供机器学习进行多维计算。每个特征都是目标的一个有意义的参考维度。
划分测试集和训练集
将数据源进行划分,为验证算法是否有效和正确
选择算法
如朴素贝叶斯分类、SVM、决策树、神经网络等,个人比较喜欢使用贝叶斯,简单方便。
小结
机器学习的重点还是在于特征工程和算法选择及调优。
相关主题: