SUPPLEMENTARY DATA TABLES

Table S1: Arsenic dataset, Mode of Action/Genetox category -- Classification Accuracy Metrics (50 seeds)

Analysis / Actual Recall / Predicted Recall / Actual Precision / Predicted Precision / Elimination Rate / Actual
F1 / Predicted F1
kM_10 / 0.92 / 0.96 / 0.45 / 0.51 / 0.40 / 0.60 / 0.67
kM_20 / 0.92 / 0.98 / 0.48 / 0.52 / 0.44 / 0.63 / 0.68
kM_30 / 0.81 / 0.96 / 0.51 / 0.62 / 0.54 / 0.63 / 0.76
NMF_10 / 0.86 / 0.96 / 0.60 / 0.71 / 0.58 / 0.70 / 0.82
NMF_20 / 0.92 / 0.96 / 0.62 / 0.71 / 0.57 / 0.74 / 0.82
NMF_30 / 0.86 / 0.96 / 0.54 / 0.54 / 0.53 / 0.66 / 0.69
LDA_10 / 0.91 / 0.96 / 0.68 / 0.69 / 0.61 / 0.78 / 0.80
LDA_20 / 0.81 / 0.98 / 0.72 / 0.77 / 0.67 / 0.76 / 0.86
LDA_30 / 0.80 / 0.96 / 0.64 / 0.64 / 0.64 / 0.71 / 0.77
Ensemble / 0.93 / 0.96 / 0.71 / 0.67 / 0.61 / 0.80 / 0.79

Table S2: Arsenic dataset, Mode of Action/Genetox category -- Classification Accuracy Metrics (100 seeds)

Analysis / Actual Recall / Predicted Recall / Actual Precision / Predicted Precision / Elimination Rate / Actual F1 / Predicted F1
kM_10 / 0.98 / 0.96 / 0.35 / 0.38 / 0.18 / 0.52 / 0.55
kM_20 / 0.95 / 0.97 / 0.43 / 0.48 / 0.35 / 0.59 / 0.64
kM_30 / 0.95 / 0.97 / 0.61 / 0.70 / 0.54 / 0.74 / 0.81
NMF_10 / 0.99 / 0.96 / 0.39 / 0.39 / 0.26 / 0.56 / 0.56
NMF_20 / 0.97 / 0.97 / 0.43 / 0.44 / 0.33 / 0.60 / 0.60
NMF_30 / 0.95 / 0.96 / 0.44 / 0.46 / 0.37 / 0.60 / 0.62
LDA_10 / 0.96 / 0.96 / 0.55 / 0.62 / 0.49 / 0.70 / 0.76
LDA_20 / 0.95 / 0.96 / 0.50 / 0.57 / 0.44 / 0.65 / 0.71
LDA_30 / 0.96 / 0.96 / 0.51 / 0.57 / 0.45 / 0.66 / 0.71
Ensemble / 0.95 / 0.96 / 0.73 / 0.83 / 0.62 / 0.83 / 0.89

Table S3: Arsenic dataset, Hazard Identification category -- Classification Accuracy Metrics (25 seeds)

Analysis / Actual Recall / Predicted Recall / Actual Precision / Predicted Precision / Elimination Rate / Actual F1 / Predicted F1
kM_10 / 0.88 / 0.96 / 0.21 / 0.20 / 0.52 / 0.34 / 0.33
kM_20 / 0.91 / 0.96 / 0.30 / 0.25 / 0.66 / 0.45 / 0.40
kM_30 / 0.79 / 0.96 / 0.27 / 0.30 / 0.67 / 0.40 / 0.46
NMF_10 / 0.86 / 0.96 / 0.20 / 0.25 / 0.51 / 0.32 / 0.40
NMF_20 / 0.85 / 0.96 / 0.21 / 0.22 / 0.54 / 0.33 / 0.35
NMF_30 / 0.89 / 0.96 / 0.28 / 0.34 / 0.64 / 0.42 / 0.50
LDA_10 / 0.96 / 0.96 / 0.27 / 0.30 / 0.60 / 0.42 / 0.46
LDA_20 / 0.94 / 0.96 / 0.29 / 0.25 / 0.64 / 0.44 / 0.40
LDA_30 / 0.92 / 0.96 / 0.25 / 0.20 / 0.58 / 0.39 / 0.33
Ensemble / 0.93 / 0.96 / 0.31 / 0.25 / 0.66 / 0.46 / 0.40

Table S4: Arsenic dataset, Hazard Identification category -- Classification Accuracy Metrics (50 seeds)

Analysis / Actual Recall / Predicted Recall / Actual Precision / Predicted Precision / Elimination Rate / Actual F1 / Predicted F1
kM_10 / 0.95 / 0.98 / 0.27 / 0.32 / 0.61 / 0.43 / 0.49
kM_20 / 0.90 / 0.96 / 0.32 / 0.47 / 0.68 / 0.47 / 0.63
kM_30 / 0.90 / 0.96 / 0.27 / 0.36 / 0.62 / 0.42 / 0.52
NMF_10 / 0.88 / 0.96 / 0.21 / 0.23 / 0.53 / 0.34 / 0.38
NMF_20 / 0.94 / 0.98 / 0.23 / 0.28 / 0.53 / 0.36 / 0.44
NMF_30 / 0.89 / 0.96 / 0.28 / 0.40 / 0.64 / 0.43 / 0.57
LDA_10 / 0.97 / 0.98 / 0.24 / 0.32 / 0.54 / 0.38 / 0.49
LDA_20 / 0.87 / 0.96 / 0.31 / 0.38 / 0.68 / 0.46 / 0.54
LDA_30 / 0.94 / 0.96 / 0.25 / 0.24 / 0.58 / 0.39 / 0.39
Ensemble / 0.93 / 0.96 / 0.27 / 0.24 / 0.61 / 0.42 / 0.39

Table S5: Arsenic dataset, Hazard Identification category -- Classification Accuracy Metrics (100 seeds)

Analysis / Actual Recall / Predicted Recall / Actual Precision / Predicted Precision / Elimination Rate / Actual F1 / Predicted F1
kM_10 / 0.99 / 0.97 / 0.20 / 0.23 / 0.44 / 0.33 / 0.37
kM_20 / 0.94 / 0.96 / 0.21 / 0.25 / 0.50 / 0.35 / 0.40
kM_30 / 0.93 / 0.96 / 0.22 / 0.28 / 0.52 / 0.35 / 0.44
NMF_10 / 0.99 / 0.99 / 0.17 / 0.19 / 0.34 / 0.29 / 0.32
NMF_20 / 0.95 / 0.97 / 0.21 / 0.24 / 0.48 / 0.34 / 0.38
NMF_30 / 0.94 / 0.96 / 0.21 / 0.25 / 0.51 / 0.35 / 0.40
LDA_10 / 0.95 / 0.96 / 0.31 / 0.38 / 0.66 / 0.47 / 0.54
LDA_20 / 0.93 / 0.96 / 0.30 / 0.31 / 0.66 / 0.46 / 0.47
LDA_30 / 0.94 / 0.96 / 0.31 / 0.34 / 0.66 / 0.47 / 0.50
Ensemble / 0.96 / 0.96 / 0.31 / 0.37 / 0.65 / 0.47 / 0.53

Table S6: Chromium dataset, Mode of Action/Genetox category -- Classification Accuracy Metrics (25 seeds)

Analysis / Actual Recall / Predicted Recall / Actual Precision / Predicted Precision / Elimination Rate / Actual F1 / Predicted F1
kM_10 / 0.94 / 0.96 / 0.22 / 0.26 / 0.37 / 0.35 / 0.40
kM_20 / 0.84 / 0.96 / 0.25 / 0.32 / 0.50 / 0.38 / 0.47
kM_30 / 0.86 / 0.96 / 0.28 / 0.34 / 0.55 / 0.42 / 0.50
NMF_10 / 0.90 / 0.96 / 0.26 / 0.45 / 0.49 / 0.40 / 0.62
NMF_20 / 0.82 / 0.96 / 0.30 / 0.51 / 0.60 / 0.44 / 0.66
NMF_30 / 0.74 / 0.96 / 0.29 / 0.45 / 0.62 / 0.41 / 0.62
LDA_10 / 0.86 / 0.96 / 0.35 / 0.58 / 0.64 / 0.50 / 0.72
LDA_20 / 0.87 / 0.96 / 0.27 / 0.26 / 0.53 / 0.42 / 0.40
LDA_30 / 0.80 / 0.96 / 0.38 / 0.51 / 0.69 / 0.52 / 0.66
Ensemble / 0.90 / 0.96 / 0.49 / 0.58 / 0.73 / 0.63 / 0.72

Table S7: Chromium dataset, Mode of Action/Genetox category -- Classification Accuracy Metrics (50 seeds)

Analysis / Actual Recall / Predicted Recall / Actual Precision / Predicted Precision / Elimination Rate / Actual F1 / Predicted F1
kM_10 / 0.90 / 0.96 / 0.28 / 0.24 / 0.52 / 0.43 / 0.39
kM_20 / 0.87 / 0.96 / 0.29 / 0.24 / 0.56 / 0.44 / 0.39
kM_30 / 0.85 / 0.96 / 0.33 / 0.31 / 0.62 / 0.47 / 0.47
NMF_10 / 0.94 / 0.96 / 0.26 / 0.25 / 0.47 / 0.41 / 0.40
NMF_20 / 0.88 / 0.96 / 0.23 / 0.21 / 0.44 / 0.37 / 0.34
NMF_30 / 0.83 / 0.96 / 0.35 / 0.30 / 0.65 / 0.49 / 0.46
LDA_10 / 0.95 / 0.98 / 0.30 / 0.33 / 0.53 / 0.46 / 0.50
LDA_20 / 0.91 / 0.96 / 0.37 / 0.31 / 0.63 / 0.53 / 0.47
LDA_30 / 0.90 / 0.96 / 0.36 / 0.30 / 0.63 / 0.51 / 0.46
Ensemble / 0.90 / 0.96 / 0.48 / 0.48 / 0.72 / 0.63 / 0.64

Table S8: Chromium dataset, Mode of Action/Genetox category -- Classification Accuracy (100 seeds)

Analysis / Actual Recall / Predicted Recall / Actual Precision / Predicted Precision / Elimination Rate / Actual F1 / Predicted F1
kM_10 / 0.96 / 0.96 / 0.25 / 0.28 / 0.42 / 0.39 / 0.43
kM_20 / 0.96 / 0.97 / 0.24 / 0.27 / 0.41 / 0.38 / 0.42
kM_30 / 0.90 / 0.97 / 0.31 / 0.37 / 0.57 / 0.46 / 0.53
NMF_10 / 0.98 / 0.96 / 0.18 / 0.19 / 0.21 / 0.31 / 0.32
NMF_20 / 0.90 / 0.97 / 0.23 / 0.26 / 0.41 / 0.36 / 0.41
NMF_30 / 0.90 / 0.97 / 0.30 / 0.35 / 0.55 / 0.45 / 0.51
LDA_10 / 0.97 / 0.98 / 0.31 / 0.34 / 0.54 / 0.47 / 0.50
LDA_20 / 0.93 / 0.96 / 0.41 / 0.44 / 0.67 / 0.57 / 0.60
LDA_30 / 0.90 / 0.97 / 0.35 / 0.34 / 0.62 / 0.50 / 0.51
Ensemble / 0.94 / 0.96 / 0.43 / 0.41 / 0.68 / 0.59 / 0.57

Table S9: Chromium dataset, Hazard Identification category -- Classification Accuracy Metrics (25 seeds)

Analysis / Actual Recall / Predicted Recall / Actual Precision / Predicted Precision / Elimination Rate / Actual F1 / Predicted F1
kM_10 / 0.98 / 1.00 / 0.03 / 0.03 / 0.07 / 0.05 / 0.05
kM_20 / 0.90 / 0.96 / 0.11 / 0.11 / 0.80 / 0.20 / 0.20
kM_30 / 0.85 / 0.96 / 0.08 / 0.14 / 0.74 / 0.15 / 0.24
NMF_10 / 0.98 / 1.00 / 0.04 / 0.04 / 0.35 / 0.07 / 0.09
NMF_20 / 0.82 / 0.96 / 0.05 / 0.24 / 0.61 / 0.10 / 0.38
NMF_30 / 0.81 / 0.96 / 0.09 / 0.14 / 0.76 / 0.16 / 0.24
LDA_10 / 0.93 / 1.00 / 0.03 / 0.03 / 0.09 / 0.05 / 0.05
LDA_20 / 0.87 / 0.96 / 0.09 / 0.08 / 0.74 / 0.16 / 0.15
LDA_30 / 0.85 / 0.96 / 0.24 / 0.39 / 0.91 / 0.37 / 0.55
Ensemble / 0.95 / 0.96 / 0.07 / 0.14 / 0.66 / 0.13 / 0.24

Table S10: Chromium dataset, Hazard Identification category -- Classification Accuracy Metrics (50 seeds)

Analysis / Actual Recall / Predicted Recall / Actual Precision / Predicted Precision / Elimination Rate / Actual F1 / Predicted F1
kM_10 / 0.98 / 0.96 / 0.04 / 0.05 / 0.34 / 0.07 / 0.09
kM_20 / 0.92 / 0.96 / 0.05 / 0.07 / 0.49 / 0.09 / 0.13
kM_30 / 0.92 / 0.96 / 0.07 / 0.14 / 0.67 / 0.13 / 0.24
NMF_10 / 0.98 / 0.98 / 0.05 / 0.06 / 0.54 / 0.10 / 0.12
NMF_20 / 0.92 / 0.96 / 0.05 / 0.06 / 0.55 / 0.10 / 0.11
NMF_30 / 0.91 / 0.96 / 0.05 / 0.07 / 0.56 / 0.10 / 0.14
LDA_10 / 0.93 / 0.96 / 0.08 / 0.11 / 0.71 / 0.15 / 0.20
LDA_20 / 0.94 / 0.98 / 0.09 / 0.14 / 0.73 / 0.16 / 0.24
LDA_30 / 0.92 / 0.96 / 0.07 / 0.14 / 0.68 / 0.14 / 0.24
Ensemble / 0.97 / 0.96 / 0.09 / 0.12 / 0.72 / 0.16 / 0.22

Table S11: Chromium dataset, Hazard Identification category -- Classification Accuracy Metrics (100 seeds)

Analysis / Actual Recall / Predicted Recall / Actual Precision / Predicted Precision / Actual Elimination / Actual F1 / Predicted F1
kM_10 / 0.96 / 0.99 / 0.02 / 0.05 / 0.04 / 0.05 / 0.09
kM_20 / 0.89 / 0.96 / 0.04 / 0.07 / 0.37 / 0.07 / 0.13
kM_30 / 0.93 / 0.97 / 0.03 / 0.07 / 0.32 / 0.07 / 0.13
NMF_10 / 0.95 / 0.98 / 0.05 / 0.12 / 0.48 / 0.09 / 0.21
NMF_20 / 0.91 / 0.96 / 0.04 / 0.08 / 0.40 / 0.07 / 0.14
NMF_30 / 0.85 / 0.96 / 0.03 / 0.09 / 0.32 / 0.06 / 0.16
LDA_10 / 0.96 / 0.97 / 0.04 / 0.11 / 0.42 / 0.08 / 0.19
LDA_20 / 0.93 / 0.96 / 0.04 / 0.09 / 0.47 / 0.08 / 0.16
LDA_30 / 0.93 / 0.96 / 0.04 / 0.08 / 0.44 / 0.08 / 0.15
Ensemble / 0.94 / 0.96 / 0.05 / 0.14 / 0.52 / 0.10 / 0.24

Table S12: Precision of Ensemble Voting based Clusters

Dataset / Arsenic / Arsenic / Chromium / Chromium
Category / Mode of Action/Genetox / Hazard Identification / Mode of Action/Genetox / Hazard Identification
Ensemble Votes / 50 seeds / 100 seeds / 50 seeds / 100 seeds / 50 seeds / 100 seeds / 50 seeds / 100 seeds
Score = 9 / 0.95 / 0.97 / 0.77 / 0.77 / NA / 0.82 / NA / 0.42
Score = 8 / 0.93 / 0.92 / 0.68 / 0.67 / 0.89 / 0.74 / 0.67 / 0.21
Score = 7 / 0.91 / 0.92 / 0.59 / 0.52 / 0.85 / 0.71 / 0.35 / 0.14
Score = 6 / 0.88 / 0.89 / 0.50 / 0.53 / 0.72 / 0.60 / 0.13 / 0.17
Score = 5 / 0.85 / 0.87 / 0.28 / 0.56 / 0.83 / 0.63 / 0.18 / 0.09
Score = 4 / 0.84 / 0.78 / 0.27 / 0.31 / 0.69 / 0.67 / 0.19 / 0.05
Score = 3 / 0.70 / 0.76 / 0.16 / 0.21 / 0.63 / 0.44 / 0.09 / 0.03
Score = 2 / 0.68 / 0.60 / 0.11 / 0.12 / 0.42 / 0.28 / 0.05 / 0.03
Score = 1 / 0.37 / 0.48 / 0.06 / 0.11 / 0.27 / 0.08 / 0.02 / 0.00