首先声明,纯属个人爱好,看网上都是R或者Python做的titanic预测,心血来潮想用sas做一下,个人比较倾向于sas,因为用的时间比较长相对熟练,欢迎大家一起研究指教,本人不是专业的,纯属娱乐,图个高兴,大家都别太当真。
***Kaggle 的经典赛题:泰坦尼克号生还者预测***
步骤1:
首先下载要用到的文件 网址如下 https://www.kaggle.com/c/titanic/data 三个文件 train.csv test.csv gender_submission.csv 然后在sas里给它们打开,这里我们用proc import导入文件,程序如下 proc import datafile="../.../train.csv" /* 双引号" "里添加文件所在的位置,注意这里是 / 不是 \ */ out=train /*文件输出名*/ dbms=csv replace; getnames=yes; run;
我们先来看一下这三个文件里面分别有什么
train.csv 包含了passengerID 为1到891的乘客的所有信息
test.csv 包含了passengerID 为892到1309的乘客的部分信息,不包含survival幸存这一列
gender_submission.csv 包含了passengerID 幸存者一列