Python训练营打卡DAY22
DAY 22 复习日
复习日
仔细回顾一下之前21天的内容,补一下进度。
作业:
自行学习参考如何使用kaggle平台,写下使用注意点,并对下述比赛提交代码
kaggle泰坦里克号人员生还预测
代码:notebook69abf5cc79 --- notebook69abf5cc79
使用kaggle平台注意点:
挂梯子下载数据集更方便;仔细阅读介绍页看清数据以及提交方式方法内容。
复盘:
很粗糙的一次经历啊,由于kaggle数据集特点,数据降维很难继承到另一个无标签新数据集中,我只采用了数据筛选,但数据筛选效果很一般。其中Cabin特征中的值独热编码后两个数据集会产生维度以及名称上的不同,我无法处理这一情况只能把它删除,删除其实降了一些准确度的,但不删除又无法将训练好的模型代入训练无标签数据集。这种情况很想知道怎么能在保存足够多的特征同时又在两个数据集冲突下如何训练和处理数据。在模型方面大差不差,但调参优化感觉提升不大,也想知道有什么比较好的调参思路。这一次未使用聚类构造新特征带入训练看看精确度是否提升是个小遗憾,但它分为两个数据集,那要怎样使用聚类构造新特征,是不是有些麻烦。希望多多交流看看准确率更高的方法的优化提升思路吧。