4.2 测试选项

应用选定的分类器后得到的结果会根据 Test Option 一栏中的选择来进行测试。共有四种测试模式:

1. Using training set. 根据分类器在用来训练的实例上的预测效果来评价它。

2. Supplied test set. 从文件载入的一组实例,根据分类器在这组实例上的预测效 果来评价它。点击 Set… 按钮将打开一个对话框来选择用来测试的文件。

3. Cross-validation. 使用交叉验证来评价分类器,所用的折数填在 Folds 文本框 中。

4. Percentage split. 从数据集中按一定百分比取出部分数据放在一边作测试用,根 据分类器这些实例上预测效果来评价它。取出的数据量由 % 一栏中的值决定。 注意:不管使用哪种测试方法,得到的模型总是从所有训练数据中构建的。点击 More

options 按钮可以设置更多的测试选项:

1. Output model. 输出基于整个训练集的分类模型,从而模型可以被查看,可视化 等。该选项默认诗选中的。

2. Output per-class stats. 输出每个 class 的准确度/反馈率(precision/recall) 和正确/错误(true/false)的统计量。该选项也是默认选中的

3. Output evaluation measures. 输出熵估计度量。该选项默认没有选中。

4. Output confusion matrix. 输出分类器预测结果的混淆矩阵。该选项默认选中。

5. Store predictions for visualization. 记录分类器的预测结果使得它们能被可 视化表示。

6. Output predictions. 输出测试数据的预测结果。注意在交叉验证时,实例的编 号不代表它在数据集中的位置。

7. Cost-sensitive evaluation. 误差将根据一个价值矩阵来估计。Set… 按钮用来 指定价值矩阵。

8. Random seed for xval / % Split. 指定一个随即种子,当出于评价的目的需要 分割数据时,它用来随机化数据。

4 WEKA 中的分类和回归都放入了 classify 页面中,相应的工具都叫做分类器(classifier)。参考4.3节。