本文图片摘自https://www.zhihu.com/question/35486862中景略集智的回答。
分类策略:基于标签的order of correlations
- first-order strategy:逐一考察单个标记而忽略标记之间的相关性,如将多标记学习问题分解为个独立的二类分类问题,从而构造多标记学习系统。该类方法效率较高且实现简单,但由于其完全忽略标记之间可能存在的相关性,其系统的泛化性能往往较低。
- second-order strategy:考察两两标记之间的相关性,如相关标记与无关标记之间的排序关系,两两标记之间的交互关系等等,从而构造多标记学习系统。该类方法由于在一定程度上考察了标记之间的相关性,因此其系统泛化性能较优。
- high-order strategy:考察高阶的标记相关性,如处理任一标记对其它所有标记的影响,处理一组随机标记集合的相关性等等,从而构造多标记学习系统。该类方法虽然可以较好地反映真实世界问题的标记相关性,但其模型复杂度往往过高,难以处理大规模学习问题。
摘自:https://www.zhihu.com/question/35486862中国双商业市场的回答
评估指标:
- Example-based: Evaluating the learning system’s performance on each test example separately, and then returning the mean value across the test set.
- Label-based: Evaluating the learning system’s performance on each class label separately, and then returning the macro/micro-averaged value across all class labels.
学习算法:
1. 问题转换(将多标签问题转换为单标签问题)
1.1. 二元关联(Binary Relevance)
将每个标签看作一个单独的类分类问题
缺点:它没有考虑标签之间的关联,因为它是单独处理每个目标变量。
1.2. 分类器链(Classifier Chains)
第一个分类器只用输入数据训练,然后在输入空间以及链条上前面所有分类器上训练接下来的每个分类器。
缺点:按顺序组成链条以保存标签之间的关联,因此标签的关联和顺序十分重要。
1.3. LP法(Label Powerset)
将问题转换为一个多类问题,用在训练数据中发现的所有唯一标签的组合训练一个多类分类器。
→
2. 自适应算法(改编算法,直接执行多标签分类任务)
BRkNNaClassifier,BRkNNbClassifier,MLkNN,
MLARAM,
MLTSVM
随机森林和岭回归,scikit-learn提供
3. 集成方法
RakelD,RakelO,LabelSpacePartitioningClassifier,
MajorityVotingClassifier