Basic Knowledge
Dataset<Row>
数据集,用于存储训练集和测试集
Dataset().stat().corr("Survived", "Pclass")
相关性分析
Double ageMean = data.select( mean( "Age" ) ).head().getDouble( 0 );
用mean函数分析,获取大多数加权值
data = data.na().fill( ageMean, new String[]{"Age"} );
将Value填充某一列中,所有空值
data = data.withColumn( "Family", data.col( "Parch" ).$plus( data.col( "SibSp" )).$plus( 1 ));
新增Family列,值=Parch+SibSp+1
Normalizer
Normalizer normalizer = new Normalizer().setInputCol("norm_features").setOutputCol("features") .setP(1.0);
L1正则化处理
Pipeline
连接多个转换器和预测器在一起,形成一个机器学习工作流
BinaryClassificationEvaluator
二分问题结果评估
Double score = evaluator.evaluate(bestModel);
评估模型得分
CrossValidator
交叉验证
评估指标
回归评估指标
多元分类
聚类评估指标
****
回归评估指数
MSE
均方差(MSE),就是对各个实际存在评分的项,pow(预测评分-实际评分,2)的值进行累加,在除以项数。
RMSE
均方根差(RMSE)就是MSE开根号
MAPK/MAP
K值平均准确率(MAPK)
R2(拟合优度检验)
MAE(平均绝对误差)
Last updated
Was this helpful?