AI比赛思路整理-懂球帝

　　写在前面:

　　对于目前的热门技术机器学习和深度学习是很容易入坑的，学习最快的方式就是多做相关项目，找平台打比赛，像Kaggle,阿里的天池等。在很多比赛中从实用的角度，那里不懂补那里。对于一开始接触这些比赛对自己的要求只需要做完就可以了。能达到多少分，排名其实都无所谓，前提是在你已经掌握了python基础知识和对数学有一定的理解。重要的是能够和排名靠前的大佬学习处理数据的技巧和方法以及处理问题的思路，我想这才是比赛的意义吧。

　　对于第一步要弄清楚题目要求做什么？采取什么方式？最后的评估方式是什么？

　　明白了上面这几个问题后，再做已下操作导入python相关模块和包导入数据集

　　要想实际的通过描述统计和通过可视化来观察数据需要对问题的描述，假设条件并调查分析数据，并对数据模型的建立描述性统计

　　描述性统计主要是查看数据的一些基本的格式，主要包括下面几个部分：shape:查看数据的形状head():查看数据本身info():数据集的简单描述，总行数，空值或者数据类型等value_counts()：分类的时候用的多，查看类别的个数describe():简单的统计性表述，最大值，最小值，平均值等。corr(mrthod = "pearson"):查看列之间的相关性skew()：

　　对于数据描述能更直观的表示数据的变化，还需对数据进行可视化分析可视化数据信息

　　快速了解数据类型的方式是绘制每个属性的直方图，由一系列的高度不等的纵向线段来表示数据分布情况。一班绘制图标横轴表示数据类型，纵轴表示分布情况。图标能够直观的展示每个属性的分布情况。进而判断数据的分布情况.....当然seaborn也是一个python中的一个包，同样也可以对数据进行做可视化数据EDA(探测性分析，生成数据报告)

　　对于这一步就要用到panadas_profiling，导入这个包，调用函数就直接生成数据的探测性报告，同样还会生成描述性统计和可视化信息等等.....对于比赛来说节省了大量的时间。主要操作如下：

　　虽然说这一步有这个强大的包，要想真正的理解数据，为后面的操作打下基础。还需要分析目标变量大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!。

　　主要包括下面几个部分：数据清洗与转换

　　对数据进行重新审查和校验的过程，目的在于删除重复信息，纠正存在的错误，并提供数据一致性

　　数据清洗的难点：

　　1.解决缺失值：平均值，最大值，最小值或者更为复杂的概况估计代替缺失值

　　2.去重：相等的记录合并为一条数据（合并/清楚）

　　3.解决错误值：用统计分析方法识别可能的错误值或异常值，如偏差分析、识别不遵守分布或回归方程的值，也可以用简单规则库（常识性规则，业务规则等）检查数据值，或使用不同属性间的约束，外部的数据来检测和清理数据

　　4.解决数据不一致性：比如数据是类别型（LabelEncoder或者OneHotEncoder）或者次序型数据清洗的八大场景：删除多列更改数据类型将分类变量转换为数值变量检查缺失值（一般为NAN）删除列中的字符串删除列中的空格用字符串连接两列转换时间戳(转换为日期时间格式)数据处理方法对数变换(log1p)标准缩放(StandardScaler)转换数据类型(astype)独热编码(OneHotEncoder或者pd.get_dummies)标签编码(LabelEncoder)修复偏斜特征(boxcox1p)特征工程

　　这部分重中之重，需要对前面分析的特征与特征之间的相关性特征与目标变量之间的相关性等对特征进行选择，组合，删除。可以基于特征重要性图来选择最相关的特征，或者进行各种组合等。常见的是用sklearn来做特征工程

　　为了寻找最佳的算法子集，包括：分离出评估数据集，便于验证模型，定义模型评估标准，用来评估算法模型，抽样审查线性算法和非线性算法，比较算法的准确度。分离数据集

　　这一部分，可以使用随机划分，或者是随机抽样，分层抽样等，sklearn都有相应的库函数进行调用，分离完训练集和测试集之后，测试集放在一边不用管，拿训练集进行下面的模型评估。估计算法

　　这里一般是不会建立模型的，在此步应该是处理相应问题的模型，进行筛选，通过model字典的方式进行的，我看大佬写的模板。

　　上面的模型可以根据实际情况进行更改，是处理一些回归问题常用的模型了。

　　得到一个准确度足够的算法后，还需要从中找出最合适的算法，对每一种算法进行调参，得到最佳的结果，用集合算法来提高算法模型的准确度

　　常用的两种优化调参模型：算法调参

　　尝试进行合理的参数搜索，找到合适的参数，给出一个模板作为参考：

　　集成算法

　　我对于集成算法还不是很了解，我只知道集成技术包括：Bagging，Boosting，Stacking，Blending这四大类。以后会做出详细的说明

　　选取出合适的模型（集成的或者堆叠的），然后就带入测试集，进行预测得出结果，根据比赛要求的格式进行文件的保存，提交完成大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!。

　　这就是在比赛中常用到的模型。当然模型不是万能的，要根据实际的应用场景随机应变。这六步说起来不是很严格，只是给出一个思考的方向，处理问题的整体框架。真正的实践还得投入到实战中去，才能检验出自己的水平。大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!