Boosting Ridge für die extrem lernende Maschine, global optimiert für Klassifizierungs- und Regressionsprobleme
Wissenschaftliche Berichte Band 13, Artikelnummer: 11809 (2023) Diesen Artikel zitieren
191 Zugriffe
Details zu den Metriken
In diesem Artikel wird das Boosting Ridge (BR)-Framework in der Extreme Learning Machine (ELM)-Community untersucht und ein neuartiges Modell vorgestellt, das die Basislerner als globales Ensemble trainiert. Im Kontext von Single-Hidden-Layer-Netzwerken von Extreme Learning Machine werden die Knoten in der Hidden-Layer vor dem Training vorkonfiguriert, und die Optimierung wird an den Gewichten in der Ausgabeschicht durchgeführt. Die vorherige Implementierung des BR-Ensembles mit ELM (BRELM) als Basislerner fixiert die Knoten in der verborgenen Schicht für alle ELMs. Die Ensemble-Lernmethode generiert unterschiedliche Ausgabeschichtkoeffizienten, indem der Restfehler des Ensembles sequentiell reduziert wird, wenn dem Ensemble weitere Basislerner hinzugefügt werden. Wie bei anderen Ensemble-Methoden werden Basislerner so lange ausgewählt, bis sie Ensemble-Kriterien wie Größe oder Leistung erfüllen. In diesem Artikel wird eine globale Lernmethode im BR-Framework vorgeschlagen, bei der Basislerner nicht Schritt für Schritt hinzugefügt werden, sondern alle in einem einzigen Schritt berechnet werden, um die Gesamtleistung zu ermitteln. Bei dieser Methode wird berücksichtigt, dass (i) die Konfigurationen der verborgenen Schicht für jeden Basislerner unterschiedlich sind, (ii) die Basislerner alle auf einmal und nicht nacheinander optimiert werden, wodurch eine Sättigung vermieden wird, und (iii) die Ensemble-Methodik diese Nachteile nicht aufweist mit starken Klassifikatoren zu arbeiten. Verschiedene Regressions- und Klassifizierungs-Benchmark-Datensätze wurden ausgewählt, um diese Methode mit der ursprünglichen BRELM-Implementierung und anderen hochmodernen Algorithmen zu vergleichen. Insbesondere wurden 71 Datensätze zur Klassifizierung und 52 zur Regression in Betracht gezogen, wobei unterschiedliche Metriken verwendet und unterschiedliche Merkmale der Datensätze analysiert wurden, wie z. B. die Größe, die Anzahl der Klassen oder deren Unausgewogenheit. Statistische Tests zeigen die Überlegenheit der vorgeschlagenen Methode sowohl bei Regressions- als auch bei Klassifizierungsproblemen in allen experimentellen Szenarien.
Im letzten Jahrzehnt hat sich Extreme Learning Machine (ELM)1 zu einer beliebten Methodik im maschinellen Lernen entwickelt, die Probleme herausfordert, beispielsweise Gehirn-Computer-Schnittstellen2, die Vorhersage der verbleibenden Nutzungsdauer von Wälzlagern3 und die Herkunftserkennung von Fenchel, was von großer Bedeutung ist Bedeutung unter anderem für die Aromatisierung von Lebensmitteln4, die Vorhersage einer COVID-19-Pneumonie5, die EGG-Klassifizierung für die Gehirn-Computer-Schnittstelle6, das Wassernetzwerkmanagement7 und die Vorhersage des Weizenertrags8. ELM-Theorien behaupten, dass die Parameter der verborgenen Schicht, d. h. Gewicht und Bias in Feed-Forward-Netzwerken mit einer einzelnen verborgenen Schicht, nicht angepasst werden müssen, sondern unabhängig vom Trainingsdatensatz zufällig generiert werden können9. Somit werden nur die Ausgabegewichte in einem einzigen Schritt berechnet, indem die Lösung der kleinsten Quadrate verwendet wird. Aufgrund dieser zufälligen Initialisierung ist die ELM-Trainingsgeschwindigkeit im Vergleich zu herkömmlichen Lösern für neuronale Netze, beispielsweise solchen, die auf Backpropagation10,11 basieren, effizienter, ohne dass die Leistung darunter leidet oder sich sogar verbessert.
Einer der Nachteile von ELM-Modellen besteht darin, dass sie eine große Anzahl von Neuronen für die verborgene Schicht erfordern, da die nichtlineare Kombination von Merkmalen zufällig untersucht wird12. Aus diesem Grund wurden verschiedene Methoden untersucht, um diese Zufälligkeit zu reduzieren, ohne die Rechenzeit oder die Komplexität des Algorithmus zu erhöhen, wie z. B. Pruning13, Schwarmoptimierung14,15 und Ensemble-Lernmethoden.
In diesem Zusammenhang wurden mehrere Ensemble-Methoden für ELM-Modelle vorgeschlagen, z. B. Ensembles für die Regression16, Fuzzy-Ensembles für die Big-Data-Klassifizierung17, tiefe Ensembles für die Zeitreihenvorhersage18, inkrementelles Meta-ELM mit Fehlerrückmeldung19 oder gewichtete Kernel-ELM-Ensembles für unausgeglichene Datensätze20. Darüber hinaus wurden viele ELM-Ensemble-Methoden auf reale Probleme angewendet, beispielsweise die Vorhersage der Meereswellenhöhe21, die Erkennung menschlicher Aktivitäten22, die Kalibrierung der Nahinfrarotspektroskopie23 oder die Erkennung von Vogelgesängen24. Im Allgemeinen zielen Ensembles darauf ab, den Generalisierungsfehler mithilfe einer Mischung aus Klassifikatoren oder Regressoren zu verbessern, die im Ensemble-Lernrahmen als Basislerner bezeichnet werden. Die Leistungsverbesserung ist mit der Diversität unter den Basisprädiktoren verbunden, d. h. für die Generalisierung des Ensembles ist es wesentlich, dass die Basislerner möglichst unterschiedlicher Meinung sind25. Es gibt viele Möglichkeiten, einzelne Vorhersagen zu kombinieren. Daher wurden mehrere Abstimmungsmethoden vorgeschlagen, um die Effizienz dieser Ensembles zu verbessern, wie unter anderem Bagging26, Boosting27, ein inkrementelles Lernsystem unter Verwendung lokaler linearer Experten28 oder eine Variation von Boosting, die aus einem funktionalen Gradientenabstiegsalgorithmus mit der L2-Verlustfunktion29 erstellt wurde. Die als Bagging und Boosting bekannten Ensemble-Methoden sind die am weitesten verbreiteten Ansätze, vor allem aufgrund ihrer einfachen Anwendung und ihrer Ensemble-Leistung30. Der Schlüssel zu diesen Ensemble-Methoden liegt in den Trainingsdaten zur Generierung von Diversität. Auf diese Weise werden implizit durch Datenstichproben verschiedene Lösungen für das mit den Basisprädiktoren verbundene Optimierungsproblem gesucht31.
Speziell im Bereich der Boosting-Philosophie ist Boosting Ridge (BR)32 ein besonders interessanter Algorithmus. Dieser Ensemble-Algorithmus, der ursprünglich für Regressionsprobleme entwickelt wurde, trainiert die Basislerner nacheinander und legt das Residuum des vorherigen Prädiktors als Trainingsziel fest. Der erste Basislerner ist der Prädiktor für das ursprüngliche Ziel. Anschließend wird der Fehler zwischen der Vorhersage des Trainingssatzes und dem Ziel berechnet, und dieser Rest ist das neue Ziel. Der zweite Prädiktor wird mit diesem Residuum trainiert. Nach der Berechnung des Fehlers zwischen dem zweiten Prädiktor und dem ersten Residuum wird ein drittes Residuum berechnet, das das Ziel des nächsten Prädiktors ist. Der Vorgang wird wiederholt, bis die Anzahl der Basislerner erreicht ist. BR zeigt seine Bedeutung in vielen Anwendungen, wie zum Beispiel bei der Früherkennung von Brustkrebs33, Microarray-Überlebensmodellen34 und der Vorhersage krimineller Rückfälle35.
Durch die Hinzufügung von Basislernern wird das Ensemble nicht kontinuierlich verbessert, da ein Kompromiss zwischen der Diversität unter den Basislernern und der endgültigen Leistung des Ensembles besteht36. Darüber hinaus kommt es bei der Boosting-Methodik zwar zu einer Sättigung der Basislerner, obwohl jeder Basislerner hinzugefügt wird, um den Fehler des vorherigen zu reduzieren. Die Sättigung tritt auf, wenn das Ensemble den Generalisierungsfehler trotz der Einführung immer mehr Basislerner nicht verbessern kann. Wenn die Anzahl der Basislerner festgelegt ist, könnte es außerdem zu einer Sättigung oder sogar zu einer Überanpassung kommen, da die Basislerner stärker (genauer) werden. Es wird angenommen, dass eine Erhöhung der Anzahl versteckter Neuronen die Diversität im Ensemble37 verringert, die zur Verbesserung der Ensembleleistung25 erforderlich ist. Um die Sättigung zu überwinden und einen Ansatz für die Modellauswahl zu bieten,38 schlägt die Verwendung genetischer Algorithmen vor, um die optimale Anzahl von Basislernern auszuwählen, die am Ensemble beteiligt sind,39 schlägt eine adaptive Stoppregel durch Anpassung des Regularisierungsparameters vor und40 stützt sich auf Diversitätsmaße Legen Sie die Obergrenze einer Anzahl von Basislernern fest.
Wie andere Ensemble-Methoden36,41 zielt BR darauf ab, jeden Basisprädiktor separat zu trainieren und dann seine Ergebnisse zu kombinieren. Der BR-Algorithmus für ELM-basierte Lernende (BRELM) wurde ursprünglich von Ran et al.42 vorgeschlagen. Vor diesem Hintergrund und um die oben genannten Hauptnachteile zu überwinden, schlägt dieses Papier einen neuen Boosting-Algorithmus vor, der die Notwendigkeit beseitigt, Basislerner nacheinander hinzuzufügen, was zu einer Sättigung führt. Auch die Verwendung starker statt schwacher Basisklassifikatoren verschlechtert die Leistung des Ensembles nicht. Hierzu werden mehrere Prädiktoren gleichzeitig optimiert, um die optimierten Ensembleparameter global zu berechnen. Die Formulierung der Fehlerfunktion ermöglicht die Entwicklung einer analytischen Lösung für die Parameter der ELM-basierten Lernenden, um die Gewichte der Ausgabeschichten für jeden Basis-Lernenden in einem einzigen Schritt zu ermitteln. Darüber hinaus erzielt diese Ensemble-Lernmethode bessere Ergebnisse als die sequentielle BR, da der Fehler global im Ensemble und nicht für jeden Basislerner optimiert wird.
Zusammenfassend sind die neuartigen Beiträge dieser Arbeit:
Die Optimierung der Gewichte der Ausgabeschicht eines Boosting Ridge for Extreme Learning Machine-Ensembles in einem einzigen Schritt statt iterativ, mit dem Ziel, den Generalisierungsfehler zu reduzieren.
Die Verwendung unterschiedlicher Eingabeebenenzuordnungen mit unterschiedlichen Parametern für ihre verborgenen Ebenen, die durch den neuen Optimierungsansatz ermöglicht wird, der zum sogenannten Generalized Global BRELM (GGBRELM) führt, führt tendenziell zu einer besseren Diversität des Ensembles.
Vermeiden Sie das Problem der Ensemblesättigung und des Übertrainings, indem Sie dafür sorgen, dass der neue Vorschlag gut funktioniert, wenn die Basisklassifikatoren stärker werden. Es ist beispielsweise bekannt, dass durch die Erhöhung der Anzahl der Neuronen in den ELM-Netzwerken der Basislerner zwar jeweils eine gute Leistung erzielt wird, im Gegenzug jedoch die Leistung des Ensembles sinkt. Mit dem neuen Vorschlag wird dieses Problem gelöst.
Die Anwendung der Methodik auf mehr als 120 Klassifizierungs- und Regressionsdatensätze aus verschiedenen Bereichen zeigt, dass der Vorschlag besser funktioniert als die modernsten Methoden und auf jedes reale Problem angewendet werden kann.
Die Leistung der vorgeschlagenen methodischen Analyse berücksichtigt verschiedene Datensatzeigenschaften wie Größe, Anzahl der Klassen oder Ungleichgewicht.
Dieses Papier ist wie folgt aufgebaut: Der Abschnitt „State-of-the-art-Algorithmen“ fasst die Notation und Formulierung der ELM-, BR- und BRELM-Algorithmen zusammen. Der Abschnitt „Methodik des Vorschlags“ entwickelt die vorgeschlagene Methodik zur Globalisierung von BRELM und seiner verallgemeinerten Version GGBRELM, zeigt einen grafischen Vergleich der Methoden und beinhaltet eine Analyse ihrer Rechenkosten. Der Versuchsaufbau ist im Abschnitt „Versuchsentwurf“ festgelegt, während im Abschnitt „Diskussion der Ergebnisse“ die am häufigsten hervorgehobenen Ergebnisse, einschließlich der statistischen Analyse, erläutert werden. Schließlich werden im Abschnitt „Schlussfolgerungen“ die wichtigsten Schlussfolgerungen der Arbeit zusammengefasst.
In diesem Abschnitt wird die Notation und Formulierung der beiden Algorithmen vorgestellt, auf denen dieser Vorschlag basiert, d. h. der ELM-Prädiktor und die BR-Ensemble-Methodik.
Für ein einfaches Problem des überwachten Lernens gilt: Datensatz \({\mathscr {D}} = \{ ({\textbf{x}}_1, {\textbf{y}}_1), \ldots , ({\textbf{x} }_n, {\textbf{y}}_n ),\) \(\ldots , ({\textbf{x}}_N, {\textbf{y}}_N) \} = \{ ({\textbf{x }}_n, {\textbf{y}}_n) \}_{n=1}^N\) besteht aus einer Menge von N Mustern, jedes mit einem Merkmalsvektor, \({\textbf{x}} _n\) und dem Ziel zugeordnet, \({\textbf{y}}_n\).
\({\textbf{x}}_n \in {\mathbb {R}}^K\) ist die Dateninformation für das n-te Muster, wobei K die Anzahl der Eingabevariablen ist.
\({\textbf{y}}_n\) ist die Zielvariable für das n-te Muster. Bei Regressionsproblemen gilt \({y}_n \in {\mathbb {R}}\), da es sich um eine Zahl handelt. Bei Klassifizierungsproblemen mit J-Klassen kann das Ziel als „1-von-J“-Kodierung ausgedrückt werden, \({\textbf{y}}_n \in {\mathbb {R}}^J\). Jede Komponente j von \({\textbf{y}}_n\) ist \(y_{j, n} = 1\), wenn das n-te Muster zur Klasse j gehört und \(y_{j, n} = 0\ ) ansonsten.
Mithilfe der „1-of-J“-Kodierung kann eine Klassifizierung als Multi-Regressionsproblem umgeschrieben werden. Daher wird in diesem Unterabschnitt das ELM-Modell für Regressionsprobleme erläutert und die Erklärung zur Klassifizierung am Ende zusammengefasst. Ein Prädiktor \(f: {\mathbb {R}}^K \rightarrow {\mathbb {R}}\), der eine Funktion ableitet, die ein n-tes Eingabemuster \({\textbf{x}}_n\) abbildet ein Ausgabeziel \({y}_n\), das Beziehungen aus dem beschrifteten Datensatz \({\mathscr {D}} = \{ ({\textbf{x}}_n, {y}_n) \}_{n= verwendet 1}^N\). Insbesondere das ELM-Modell (Extreme Learning Machine) baut diese Funktion auf:
Wo:
\({\textbf{h}}: {\mathbb {R}}^K \rightarrow {\mathbb {R}}^D\) ist eine nichtlineare Abbildung der Eingabeebene. Es transformiert das Muster \({\textbf{x}}_n\) vom ursprünglichen Merkmalsraum \({\mathbb {R}}^K\) in den transformierten Raum \({\mathbb {R}}^D\ ), wobei D die Anzahl der Neuronen in der verborgenen Schicht ist. Diese Zuordnung wird explizit berechnet als
mit \(\phi : {\mathbb {R}}^K \rightarrow {\mathbb {R}}\) als Aktivierungsfunktion für das Neuron d und den Gewichten \({\textbf{w}}_{d }\) und Verzerrungen \(b_{d}\) werden zufällig generiert.
\(\varvec{\beta }: {\mathbb {R}}^{D}\) ist der Vektor der Gewichte in der Ausgabeschicht, die im Optimierungsproblem gefunden werden:
wobei \({\textbf{H}} = \left( {\textbf{h}}' \left( {\textbf{x}}_{1}\right) , \ldots , {\textbf{h}} ' \left( {\textbf{x}}_{N}\right) \right) \in {\mathbb {R}}^{N \times D}\) ist die Ausgabe der verborgenen Schicht für die Trainingsmuster , \({\textbf{Y}} = \left( {\begin{array}{c} {\textbf{y}}_{1} \\ \vdots \\ {\textbf{y}}_{N }\\ \end{array} } \right) \in {\mathbb {R}}^{N}\) ist die Matrix mit den gewünschten Zielen und \(C > 0\) ist ein vom Benutzer angegebener Begriff steuert die Regularisierung im Modell12.
Gleichung (3) stellt ein konvexes Minimierungsproblem mit Fehler- und Regularisierungstermen dar. Der Fehlerterm \({\Vert {\textbf{H}} \varvec{\beta } - {\textbf{Y}} \Vert }^2\) passt den Koeffizientenvektor \(\varvec{\beta }\) an. um den Fehler der Vorhersage \({\textbf{Y}}\) zu minimieren, während der Regularisierungsterm \({\Vert \varvec{\beta }_j \Vert }^2\) enthalten ist, um Über- zu vermeiden. passend zum Modell43.
Die optimale Lösung für das Modell ist das Minimum der konvexen Zielfunktion in Gl. (3) und wird durch Ableiten und Gleichsetzen von 0 erhalten:
Für ein Klassifizierungsproblem gibt es J Minimierungsprobleme gemäß Gl. (3). Die vorhergesagte Klasse entspricht der Vektorkomponente mit dem höchsten Wert
Aus einem linearen Regressionsmodell
und das damit verbundene Minimierungsproblem
mit \({\textbf{X}} = \begin{pmatrix} {\textbf{x}}_1^{'} \\ \vdots \\ {\textbf{x}}_N^{'} \end{pmatrix } \in {\mathbb {R}}^{N \times K}\), Tutz et al.32 schlugen die BR-Regression als Ensemble-Lernmethode vor, die sequentiell das Residuum der Ensemble-Vorhersage reduziert,
Für ein Ensemble mit S-Basis-Lernenden beträgt die Vorhersage des BR-Regressionsmodells
Die BR-Ensemble-Lernmethodik wurde von Ran et al.42 an die ELM-Community angepasst. Die Vorhersage dieses sequentiellen Ensembles, BRELM, von S-Basis-Lernenden ist die folgende lineare Kombination:
Der erste Basislerner \(s = 1\) ist die Standard-ELM-Lösung aus Gl. (3). Später verwendet die s-te Basis-Lerner-Trainingsphase alle Daten, aber das Ziel \(\mathbf {\mu }^{(s)}\) ist das Residuum der vorherigen Basis-Lerner-Vorhersagen.
Daher besteht das Minimierungsproblem des s-ten Basislerners
und die Lösung für die Ausgabeschicht des s-ten Basislerners lautet
In diesem Abschnitt wird die Globalisierung des BRELM zusammen mit einer erweiterten Version namens Generalized Global BRELM (GGBRELM) vorgeschlagen. Ein methodischer grafischer Vergleich ist ebenfalls enthalten. Und schließlich wird eine theoretische Analyse der rechnerischen Komplexität der Methoden diskutiert.
Die Haupthypothese dieser Arbeit ist, dass die Methodik, die auf der Optimierung aller Basislerner in einem einzigen Schritt basiert, den Generalisierungsfehler des Ensembles verbessern wird. Wenn man also bedenkt, dass dieses Verfahren die Sättigung des Ensembles vermeidet und daher für eine große Anzahl von Neuronen (starke ELM-Basislerner) die Ensembleleistung nicht beeinträchtigt wird. Darüber hinaus führt die Verwendung unterschiedlicher Eingabeschichtgewichte und damit unterschiedlicher Abbildungsfunktionen (\({\textbf{h}}^{(s)}\)) zwischen den verschiedenen Basisprädiktoren zu mehr Diversität im Ensemble.
Die Hauptidee von BRELM besteht darin, den vom Ensemble erzeugten Fehler sequentiell zu reduzieren. Dieser Vorschlag, Global BRELM, stellt das Problem für jeden s-ten Basislerner als Fehlerreduzierung der anderen Basislerner des Ensembles dar.
Bei der Ableitung von Respekt mit \(\varvec{\beta }^{(s)}\) und gleich 0 hängen einige Terme von \(\varvec{\beta }^{(s)}\) ab, während andere von \ abhängen (\varvec{\beta }^{(s')}\), \(s' = 1, \ldots , S\), \(s' \ne s\),
Aus der vorherigen Gleichung lässt sich ein Gleichungssystem aufstellen,
also ist die Lösung von Gl. (17) kann einfach durch Invertieren einer Matrix berechnet werden,
Diese Lösung funktioniert auch für einfache BR mit linearen Regressoren und ersetzt \({\textbf{H}}' {\textbf{H}}\) und \({\textbf{H}}' {\textbf{Y}}\ ) für \({\textbf{X}}' {\textbf{X}}\) bzw. \({\textbf{X}}' {\textbf{Y}}\).
Die Verallgemeinerung ist so einfach, dass man \({\textbf{H}}\) für jeden s-ten Basislerner unterschiedlich macht,
Die verschiedenen nichtlinearen Merkmalszuordnungen in \({\textbf{H}}^{(s)}\) können mit jeder ELM-Methode generiert werden: Randomisierung12, PCA mit verschiedenen Teilmengen des Trainingsdatensatzes44, Elemente in einer pseudozufälligen Sequenz45, \( \ldots\) Wie bereits erwähnt, wurden bei dieser Verallgemeinerung mehrere zufällige Gewichte und Verzerrungen für jede Abbildungsfunktion \({\textbf{h}}^{(s)}\)-Abbildungen ausgewählt und so unterschiedliche Abbildungen \({ \textbf{H}}^{(s)}\).
Abbildung 1 enthält einen grafischen und minimalistischen Vergleich der in diesem Dokument verwendeten Methoden. Beachten Sie, dass ELM (a) ein Modell in einem einzigen Schritt trainiert, BRELM und GBRELM (b) mehrere Modelle nacheinander trainieren und das vorgeschlagene GGBRELM (c) alle Modelle in einem einzigen Schritt trainiert, da BRELM, GBRELM und GGBRELM Ensemble-Methoden sind.
Minimalistische Flussdiagramme der verschiedenen Methoden.
Die Rechenkomplexität des ELM-Modells wird durch die Anzahl der verborgenen Knoten, bezeichnet als D, die Größe des Trainingssatzes, bezeichnet als N, und die Anzahl der Klassen, J, bestimmt. Zur Berechnung von \(\mathbf {H'H}\) , ist es erforderlich, eine Matrix von \(D \times N\) mit einem \(N \times D\) zu multiplizieren, was zu einer Komplexität von \(O(D \cdot N^2)\) führt. Dann muss ELM eine Matrixinversion für eine \(D \times D\)-Matrix durchführen, deren Komplexität \(O(D^{3})\) ist, wie in46,47 gezeigt. Danach erfolgt eine Multiplikation von \(\mathbf {H'Y}\), also \(D \times N\) mit \(N \times J\) mit einem Aufwand von \(O(D \cdot N \cdot J)\). Abschließend werden die resultierenden Matrizen \(D \times D\) und \(D \times J\) mit einer Rechenzeit von \(O(D^2 \cdot J)\) multipliziert. Daher beträgt die gesamte Rechenkomplexität \(O(\text {ELM}) = O(D \cdot N^2 + D^{3} + D \cdot N \cdot J + D^2 \cdot J)\) .
Der Rechenaufwand für die BRELM- und GBRELM-Methoden hängt auch von der Anzahl der Basislerner S ab. Da diese Methoden S ELM-Modelle nacheinander trainieren und jedes Modell unter Verwendung der Residuen des vorherigen Modells als Ziele trainiert wird, beträgt der Rechenaufwand \(O (S \cdot O(\text {ELM})+(S-1) (N\cdot D \cdot J))\).
Wenn man schließlich bedenkt, dass GGBRELM die Optimierung in einem einzigen Schritt durchführt, muss die Methode eine Matrixinversion einer \(DS \times DS\)-Matrix berechnen und das Ergebnis mit einer \(DS \times NJ\)-Matrix multiplizieren. Vorausgesetzt, dass die \(\mathbf {H'H}\)-Matrix symmetrisch ist, ist die Berechnung aller Zwischenwerte \(\mathbf {H^{s'}H^{t}} \text { für } s={1 , \ldots , S}, t={s, \ldots , S}\), insgesamt \(S(S-1)/2\) Multiplikationen der Matrizen \(D \times N\) mit \(N \times D\) durchgeführt werden müssen, was zu einer Komplexität von \(O(S(S-1)/2 \cdot D \cdot N^2)\) führt. Aus diesem Grund beträgt der Rechenaufwand von GGBRELM \(O(S(S-1)/2 \cdot D \cdot N^2 + (DS)^{3}+ (DS)^2\cdot J+ DS \cdot N \cdot J)\).
Um die im Abschnitt „Methodik des Vorschlags“ vorgestellte Methodik zu bewerten, wurde eine umfassende experimentelle Umgebung implementiert. In diesem Sinne beschreibt der Abschnitt „Experimente“ die ursprünglich durchgeführten Experimente. Der Abschnitt „Datensätze“ enthält eine Beschreibung der Datensätze, die bei den Regressions- und Klassifizierungsproblemen verwendet werden. Der Abschnitt „Einstellung von Algorithmen und Parametern“ enthält eine kurze Erläuterung der für die Durchführung der Vergleichsstudie ausgewählten Algorithmen und die Einrichtung ihrer Hyperparameter. Schließlich werden die für die Bewertung der Modelle implementierten Metriken im Abschnitt „Maßnahmen“ detailliert beschrieben, und die statistischen Tests, die zur Validierung der erzielten Ergebnisse durchgeführt werden, werden im Abschnitt „Statistische Tests“ definiert.
Wie bereits erwähnt, besteht das Ziel dieser Arbeit nicht nur darin, die Leistung des Basislerners (ELM) zu verbessern, sondern auch die Nachteile des BRELM und insbesondere des generalisierten BRELM (GBRELM) zu überwinden. Zu Vergleichszwecken wird außerdem eine neuere Kernel-Methodik verwendet (KBRELM, siehe Abschnitt „Algorithmen und Parametereinstellung“). Zu diesem Zweck wurden zwei Experimente durchgeführt:
Im ersten Experiment (E1) war die Anzahl der Neuronen in der verborgenen Schicht gering. Je kleiner also die Anzahl der versteckten Knoten ist, desto schlechter ist die Leistung von ELM. GBRELM hingegen schneidet besser ab.
Im zweiten Experiment (E2) ist die Anzahl der Knoten in der verborgenen Schicht größer. Dadurch ist die Leistungsfähigkeit des ELM hoch (starke Lerner), sodass dieses Modell wettbewerbsfähige Ergebnisse erzielt. Gleichzeitig kann das GBRELM-Ensemble seine Ensemblearchitektur nicht zur Verbesserung seiner Leistung nutzen. Als klassisches Ensemble steigt seine Leistung bei Einsatz schwacher Lerner und sinkt bei Einsatz komplexer Lerner.
In beiden Experimenten wird die Leistung der Methoden in den Datensätzen entsprechend ihrer Größe analysiert. Für die Klassifizierungsprobleme werden außerdem die Anzahl der Klassen und das Ungleichgewichtsverhältnis untersucht, das als Verhältnis berechnet wird, das sich aus der Division der Anzahl der Muster der Mehrheitsklasse durch die Anzahl der Muster der Minderheitsklasse ergibt.
Die zugrunde liegende Idee besteht darin, zu zeigen, dass GGBRELM ELM, GBRELM und KBRELM in beiden experimentellen Szenarien übertrifft, indem sie bei Regressions- und Klassifizierungsproblemen verglichen und eine Analyse anhand verschiedener Datensatzeigenschaften durchgeführt werden.
Die experimentelle Validierung wurde an 71 Klassifizierungsdatensätzen bzw. 52 Regressionsdatensätzen durchgeführt. Diese Auswahl wurde durchgeführt, um in den Referenzdatensätzen verschiedene Arten von Klassifizierungs-/Regressionsproblemen hinsichtlich ihres Anwendungsbereichs, ihrer Größe (Produkt aus der Anzahl der Muster mal der Anzahl der Attribute), ihrer Anzahl an Klassen und ihrer Unausgewogenheit einzubeziehen Verhältnis. Die Tabellen 1 und 2 zeigen eine Zusammenfassung der Hauptmerkmale der ausgewählten Datensätze: Identifikationsnummer (ID), die durch die Reihenfolge der Datensätze von der höchsten zur niedrigsten Größe zugewiesen wurde, Name (Datensatz), Anzahl der Instanzen (#Inst. ), Attribute (#Attr.) und Größe (Size). Entsprechend ihrer Größe wurden Datenbanken in große (Größe > 100.000), mittlere (10.000 < Größe < 100.000) und kleine (Größe < 10.000) unterteilt. Die Anzahl der Klassen (#Classes), ihre Verteilung (Class distribution) und das Unbalanced Ratio (IR) wurden ebenfalls in die Charakterisierung der Klassifizierungsproblemdatensätze einbezogen (Tabelle 1). Unausgeglichene Datensätze (IR > 2) wurden ebenfalls zur weiteren Analyse hervorgehoben. Von hier bis zum Ende werden die Datensätze entsprechend ihrer ID annotiert. Während Klassifizierungsdatensätze aus dem UCI Machine Learning Repository48 extrahiert werden, stammen Regressions-Benchmark-Probleme aus verschiedenen Repositorys für maschinelles Lernen: UCI, Department of Statistics der University of Florida49 und LIACC50.
Die vorgeschlagene Methode wurde durch einen Vergleich ihrer Ergebnisse mit anderen aktuellen ELM-Vorschlägen auf dem neuesten Stand der Technik bewertet. Die Vergleichsmethoden werden im Folgenden kurz beschrieben:
Extreme Learning Machine (ELM)12 (beschrieben im Abschnitt „Extreme Learning Machine“). Bei der Modellimplementierung wurden die Gewichte und Bias in der verborgenen Schicht zufällig einer gleichmäßigen Verteilung folgend generiert. Im Gegensatz dazu wurden die Ausgabegewichte mithilfe des ELM-Minimierungsproblems mit \(L_{2}\)-Regularisierung optimiert.
Generalisiertes BRELM (GBRELM) (eine Version, die den im Abschnitt „Boosting ridge extreme learning machine“ beschriebenen Algorithmus mit der Verallgemeinerung der Zuordnungsfunktionen \({\textbf{h}}^{(s)}\) kombiniert). Diese Arbeit vergleicht die verallgemeinerte Version von Boosting Ridge für Extreme Learning Machine, da sie Variabilität in das Modell einführt. Daher wäre ein Vergleich mit einer einfacheren Version, bei der alle Ensembleelemente dieselbe Eingabeebene haben, nicht sinnvoll.
Generalized Global BRELM (GGBRELM) (beschrieben im Abschnitt „Methodik des Vorschlags“). Die vorgeschlagene Methodik verbessert die ursprüngliche Architektur des sequentiellen Generalized Boosting Ridge mit einem globalen Ansatz.
Kernel BRELM (KBRELM)39. Um unseren Vorschlag mit einer neueren Methodik in der Literatur zu vergleichen, haben wir auch ein Boosting-Ridge-Ensemble hinzugefügt, das die Kernel-Ridge-Regression als Basis für Lernende verwendet, wie in39. Diese Methode funktioniert wie das im Abschnitt „Boosting Ridge-Regression“ vorgestellte sequentielle Boosting Ridge für ELM, verwendet jedoch einen Kernel-Trick anstelle einer neuronalen Zuordnung. Dafür wurde der Gaußsche Kernel mit dem Hyperparameter \(\gamma\) verwendet.
Die Leistung der Vergleichsmethoden hängt entscheidend von der Einstellung zweier Hyperparameter ab: des Regularisierungsparameters C und der Anzahl versteckter Knoten D. Der Hyperparameter C wurde durch eine Rastersuche in einer fünffach verschachtelten Kreuzvalidierung ermittelt. Der optimale Wert des Regularisierungsparameters für alle Vergleichsmethoden wurde mit dem folgenden Raster ermittelt: \(C \in \{ 10^{-2}, 10^{-1}, 1, 10, 10^2 \}\) . Die Anzahl der versteckten Knoten D in allen Modellen wurde für das erste Experiment auf \(D = 10\) und für das zweite Experiment auf \(D = 1000\) festgelegt. Im Fall der KBRELM-Methode muss der Parameter \(\gamma\) kreuzvalidiert werden, daher wurde er mit dem Gitter \(\gamma \in \{ 10^{-2}, 10^{-1} , 1, 10, 10^2 \}\). Die Ensemblegröße für alle Ensemblemethoden wurde auf 10 Basislerner festgelegt.
Die experimentellen Ergebnisse wurden mithilfe eines 10-fachen Kreuzvalidierungsverfahrens mit 3 Wiederholungen pro Mal ermittelt. Somit wurden für alle verglichenen Methoden 30 Fehlermaße ermittelt, was eine ausreichende statistische Signifikanz der Ergebnisse gewährleistet. Die Partitionen waren bei allen verglichenen Modellen gleich. Die Eingabewerte wurden standardisiert, die Regressionsbezeichnungen wurden auf [0, 1] skaliert und die Klassenbezeichnungen wurden nach der „1-zu-J“-Kodierung binarisiert51.
Die für die Leistungsvalidierung verwendeten Metriken waren allesamt Standardmetriken in ihrer Umgebung, also bekannte und Standardmetriken für Klassifizierungs- und Regressionsprobleme. In dieser Hinsicht haben die Einfachheit und der Erfolg der Anwendung der Genauigkeitsrate (Acc) dazu geführt, dass sie häufig als Leistungsmaß für Klassifizierungsprobleme verwendet wird. Allerdings ist Acc für unausgeglichene Datensätze ungeeignet, was einer der großen Kompromisse bei der Verwendung der Genauigkeitsmetrik ist. Wie in Tabelle 1 zu sehen ist, gibt es insgesamt 35 Datensätze mit einem IR von mehr als 2, dem in dieser Arbeit berücksichtigten Schwellenwert. Daher ist es angemessener, eine ausgewogene Genauigkeit (\(Balanced\;Accuracy\)) zu verwenden, die der Genauigkeit in ausgeglichenen Datensätzen entspricht und das Ungleichgewicht der Klassen berücksichtigt, sofern vorhanden. Darüber hinaus wurden zwei weitere Klassifizierungsmetriken, Präzision (Präzision) und F-Maß (F1), ebenfalls verwendet, da sie in ausgeglichenen und unausgeglichenen Szenarien nützlich sind.
Angesichts eines binären Klassifizierungsproblems (positive und negative Muster) wird Folgendes berücksichtigt:
True Positives (TP): positive Muster, die als positiv vorhergesagt werden.
Falsch negativ (FN): positive Muster, die als negativ vorhergesagt werden.
False Positives (FP): Falsche Muster, die als positiv vorhergesagt wurden.
Richtig negativ (TN): Falsche Muster, die als negativ vorhergesagt wurden.
Anschließend werden diese Klassifizierungsleistungsmetriken mathematisch wie folgt definiert:
\(Ausgewogen\;Genauigkeit\) ist der Mittelwert aus Sensitivität und Spezifität. Unausgeglichene Datensätze können mithilfe des Durchschnitts aus Sensitivität und Spezifität behoben werden. Wenn ein Modell nur für die Mehrheitsklasse im Datensatz genaue Vorhersagen trifft, erhält es eine schlechtere \(Balanced\;Accuracy\)-Bewertung:
Präzision ist der Prozentsatz der als positiv vorhergesagten positiven Muster in Bezug auf die Gesamtheit der positiv vorhergesagten Muster:
F1 ist das harmonische Mittel von Precision und Recall:
Bei Problemen mit mehreren Klassen werden die Metriken berechnet, indem eine Klasse mit allen anderen verglichen wird. Die gewählte Klasse gilt als positiv, die anderen als negativ. Dieser Ansatz ermöglicht es, für jede der Klassen einen metrischen Wert zu erhalten. Dann wird der Mittelwert ermittelt.
Der mittlere quadratische Fehler (RMSE) und der Bestimmungskoeffizient (\(R^2\)) sind die Hauptmaße bei der Validierung eines Algorithmus für Regressionsprobleme:
RMSE ist die Standardabweichung der Differenzen zwischen vorhergesagten und Zielwerten und ist definiert als:
wobei \(\hat{{\textbf{y}}}\left( {\textbf{x}}_{n}\right)\) der vorhergesagte Wert für das Muster \({\textbf{x}}_{ n}\) und \({y}_{n}\), die reale.
\(R^2\) ist der Bestimmungskoeffizient, der den Anteil der Variation in der abhängigen Variablen darstellt, der aus den unabhängigen Variablen vorhersagbar ist.
wobei \({\textbf{y}}\) und \(\hat{{\textbf{y}}}\) die realen bzw. vorhergesagten Werte sind.
Um zu zeigen, dass das GGBRELM-Modell eine vielversprechende Methode auf seinem Gebiet ist, ist es entscheidend, seine Leistung im Vergleich zu den Vergleichsmethoden mit statistischen Tests zu validieren. Für beide Experimente und für jede Metrik wurde ein Pre-hoc-Test mit den Bewertungen der Methoden an den verschiedenen Datensätzen angewendet, um die statistische Signifikanz der Rangunterschiede zu bewerten. Für Auswertungen, bei denen der Test statistische Unterschiede in den Methodenrankings feststellte, wurde ein Post-hoc-Test durchgeführt, um zu bestimmen, welche Modelle sich unter den mehreren Vergleichen unterscheiden, die unter Verwendung der leistungsstärksten Methode als Kontrollmethode durchgeführt wurden. Zu diesem Zweck wurden nichtparametrische Tests angewendet. Zunächst wurden für \( \alpha = 0,05\). Anschließend wurde der nichtparametrische Holm-Post-hoc-Test53 implementiert, um zu bestimmen, ob die Kontrollmethode, GGBRELM, die Vergleichsmethoden unter Berücksichtigung von \(\alpha = 0,05\) und unter Berücksichtigung jeder Metrik statistisch übertrifft.
Dieser Abschnitt umfasst die Analyse der experimentellen Ergebnisse, die mit den ausgewählten Datensätzen erzielt wurden. Dieser Teil des Papiers wurde nach Klassifizierungs- und Regressionsdatensätzen in zwei Abschnitte unterteilt. Der Kürze halber wurde beschlossen, nur die relevanten Grafiken und eine Zusammenfassung der statistischen Ergebnisse bereitzustellen.
Die Generalisierungsleistungen der betrachteten Methoden für E1 (\(D=10\)) und E2 (\(D=1000\)) in Klassifizierungsdatensätzen sind in den Abbildungen dargestellt. 2 bzw. 3 ((a) \(Ausgewogen\;Genauigkeit\), (b) Präzision, (c) F1). In diesen Abbildungen stellt die Y-Achse den Wert der gemeldeten Metrik dar, während die X-Achse die IDs der nach Größe sortierten Datensätze enthält. Wenn GGBRELM für einen Datensatz das beste ist, wird seine ID fett angezeigt, und wenn es das zweitbeste ist, wird es kursiv angezeigt. Abschließend werden unausgeglichene Datensätze mit einer Unterstreichung gekennzeichnet. Bei allen Klassifizierungsmetriken gilt: Je höher der Punkt im Diagramm liegt, desto besser ist die Leistung dieser Methode, da das Ziel darin besteht, diese Metriken zu maximieren.
Als allgemeine Regel lässt sich beobachten, dass die GGBRELM-Methodik in beiden Experimenten die anderen Ansätze in den Bereichen \(Balanced\;Accuracy\), Precision und F1 übertrifft. Bezeichnenderweise ist der Unterschied in den Datensätzen größer, in denen nicht alle Methoden gute Ergebnisse erzielen.
Leistungsdiagramm für Metriken für Klassifizierungsdatensätze mit D = 10. Die Y-Achse stellt den Wert der Metrik dar, während die X-Achse die IDs der Datensätze sortiert nach Größe enthält. Wenn GGBRELM für diesen Datensatz am besten geeignet ist, wird seine ID in Fettdruck angezeigt, und wenn es der zweitbeste ist, wird er in Kursivschrift angezeigt. Abschließend werden unausgeglichene Datensätze mit einer Unterstreichung gekennzeichnet.
Leistungsdiagramm für Metriken für Klassifizierungsdatensätze mit D = 1000. Die Y-Achse stellt den Wert der Metrik dar, während die X-Achse die IDs der Datensätze sortiert nach Größe enthält. Wenn GGBRELM für diesen Datensatz am besten geeignet ist, wird seine ID in Fettdruck angezeigt, und wenn es der zweitbeste ist, wird er in Kursivschrift angezeigt. Abschließend werden unausgeglichene Datensätze mit einer Unterstreichung gekennzeichnet.
Insbesondere in E1 schneidet GGBRELM beim Vergleich von \(Balanced\;Accuracy\) in 31 Datensätzen besser ab und ist in 36 Datensätzen der zweitbeste, was nahezu der Gesamtzahl der Datenbanken entspricht. Was die Präzision betrifft, ist es das beste in 36 Datensätzen und das zweitbeste in 30. Darüber hinaus ist GGBRELM für F1 auch das beste in 36 Datensätzen und das zweitbeste in 27. GBRELM und KBRELM weisen eine ähnliche Leistung hinsichtlich der Anzahl der Datenbanken auf, in denen Sie sind die Besten oder Zweiten. Der Literatur zufolge ist die ELM-Leistung geringer als die Ensemble-Ansätze.
Darüber hinaus wird das ELM in Experiment E2, in dem die Klassifikatoren mit einer hohen Anzahl von Neuronen in der verborgenen Schicht konfiguriert sind, stärker spezialisiert. Daher verbessert sich die Leistung und es sollte die Ensemble-Methoden aufgrund seiner Nachteile bei der Verwendung starker Basislerner, wie z. B. Sättigung oder Überanpassung, übertreffen. Obwohl es wahr ist, dass GBRELM und KBRELM schlechtere Ergebnisse als ELM erzielen, überwindet GGBRELM diesen Nachteil der Ensemble-Natur-Methoden, indem es genauere Ergebnisse erhält. Somit erzielt GBBRELM in 27, 30 und 28 Datensätzen das beste Ergebnis in Bezug auf \(Balanced\;Accuracy\), Präzision und F1, und das zweitbeste in 31, 30 und 30 Datensätzen. Somit ist die vorgeschlagene Methodik auch besser als die drei verglichenen Methoden, wie in Abb. 3 dargestellt.
Wie oben erwähnt, wurde eine Reihe statistischer Tests durchgeführt, um die Ergebnisse aus statistischen Hypothesenkontrasten zu analysieren und die Ergebnisse in Tabelle 3 zusammenzufassen. Für die Friedman-Tests und ein Signifikanzniveau \(\alpha = 5\%\) gilt: Das Konfidenzintervall beträgt \(C_0 = (0, F_{0,05} = 2,65)\) und der statistische Wert der F-Verteilung unter Berücksichtigung der Rangfolge \(Balanced\;Accuracy\) beträgt \(F^* = 27,80\) unter Berücksichtigung der Präzision Rankings ist \(F^* = 31,69\) und unter Berücksichtigung von F1 ist \(F^* = 22,73\) im Experiment E1 (D = 10), während im E2-Experiment (D = 1000) \(F ^* = 15\), \(F^* = 10,76\) bzw. \(F^* = 9,89\). Folglich weist der Test in beiden Experimenten die Nullhypothese zurück, die besagt, dass alle Algorithmen hinsichtlich der mittleren Rangfolge von \(Ausgewogen\;Genauigkeit\), Präzision und F1 gleich gut abschneiden. Das heißt, der Algorithmuseffekt ist statistisch signifikant. Aus diesem Grund gilt sie als die leistungsstärkste Methode als Kontrollmethode für einen Post-hoc-Test und vergleicht diesen Algorithmus mit den übrigen Methoden. Tabelle 3 zeigt somit auch die Ergebnisse des Holm-Tests. Bei Verwendung von GGBRELM als Kontrollalgorithmus (CA) zeigt der Holm-Test, dass \(p_i < \alpha ^*_i\) in allen Fällen für \(\alpha =0,05\) gilt, was bestätigt, dass es statistisch signifikante Unterschiede gibt, die GGBRELM begünstigen beide Experimente und für jede Metrik.
Wie bereits erwähnt, wurden die Datensätze in absteigender Reihenfolge der Größe sortiert und entsprechend in drei Kategorien unterteilt, wie in Tabelle 1 dargestellt: 17 große Datensätze (IDs 1–17), 25 mittlere (IDs 18–42) und 29 kleine (IDs 43-71).
Betrachtet man E1, so ist GGBRELM bei großen Datensätzen der beste in acht Datensätzen und der zweitbeste in den verbleibenden Datensätzen für alle Metriken. Es ist das beste in 12, 13 und 13 mittleren Datensätzen und das zweitbeste in 11, 10 und 9 entsprechend \(Balanced\;Accuracy\), Precision und F1. Bei kleinen Datensätzen werden je nach analysierter Metrik die besten Ergebnisse bei den Datensätzen 11, 15 und 15 und die zweitbesten bei den Datensätzen 16, 11 und 9 erzielt.
Im Fall von E2 ist GGBRELM für große Datensätze der beste in 11, 10 und 9 und der zweitbeste in 4, 6 und 7. Bei mittleren Datensätzen wird der beste in 6, 10 und 9 und der zweitbeste in 6, 10 und 9 erhalten Ergebnisse werden in 14, 11 und 10 erzielt. Schließlich werden die besten Ergebnisse in 10 und die zweitbesten in 13 kleinen Datensätzen in allen Metriken erzielt.
Wie man sieht, ist die Leistung der GGBRELM-Methode unabhängig von der Größe recht gut. Allerdings konzentrieren sich die besten Ergebnisse sowohl für E1 als auch für E2 darauf, dass die großen Datensätze in beiden Experimenten in fast allen Metriken die beste oder zweitbeste Methode waren. Bei den kleinsten Datensätzen ist die Verbesserung des Vorschlags nicht so deutlich spürbar wie bei den übrigen. Dies ist sinnvoll, da es sich um Datenbanken ohne Schwierigkeiten handelt und sie mit jeder Methode einfacher zu lösen sind.
Bei der experimentellen Validierung gibt es insgesamt 35 unausgeglichene Datensätze. Wie bereits erwähnt, wurde die IR für jede Klassifizierungsdatenbank als Verhältnis der Anzahl der Muster in der Mehrheitsklasse zur Anzahl der Muster in der Minderheitsklasse berechnet. Die IR wurde in Tabelle 1 angegeben, wobei diese Datensätze mit einem \(IR>2\) unterstrichen wurden. Darüber hinaus sind in den Abb. In den Abbildungen 2 und 3 wurden auch die IDs dieser unausgeglichenen Datensätze unterstrichen, um die Diskussion der Ergebnisse durch deren Berücksichtigung zu erleichtern.
Betrachtet man das erste Experiment mit D auf 10, erzielt GGBRELM das beste Ergebnis bei 13 Datensätzen und das zweitbeste bei 18, was unter Berücksichtigung der \(Balanced\;Accuracy\)-Metrik fast die Gesamtzahl der Datenbanken ergibt. Ähnlich verhält es sich mit den anderen beiden Metriken: Bester in 15 und zweitbester in 15 für Präzision und die besten Ergebnisse in 16 und zweitbester in 11 mit F1. In diesem Fall ist es erwähnenswert, dass die zweite Methode im Durchschnitt für die drei Metriken GBRELM wäre. Obwohl KBRELM in vielen Datenbanken das beste Ergebnis erzielt, zeigte dieses ein instabiles Verhalten, da es je nach Datensatz entweder sehr gut oder am schlechtesten ausfiel.
Was E2 betrifft, so gilt das Gleiche auch für GGBRELM, da es die beste Methode für die drei Metriken in den Datensätzen 9, 13 und 12 und die zweitbeste Methode in den Datensätzen 18, 16 und 13 ist. Es ist wichtig zu beachten, dass bei unausgeglichenen Datensätzen Die GBRELM-Methode weist in Bezug auf ELM in allen Metriken ungefähr die gleiche durchschnittliche Leistung auf, ELM ist jedoch immer noch etwas besser als GBRELM.
Aus dieser Analyse lässt sich schließen, dass die vorgeschlagene GGBRELM-Methode nicht nur bei allen Metriken für alle Datenbanken eine gute Leistung erbringt, sondern auch für unausgeglichene Datensätze am besten geeignet ist.
Aus der Spalte #Klassen in Tabelle 1 und Abb. Anhand der Abbildungen 2 und 3 kann der Einfluss der Anzahl der Klassen auf die erzielten Ergebnisse analysiert werden.
Somit ist GGBRELM für E1 und die 44 binären Probleme im Durchschnitt der beste Algorithmus, da er je nach analysierter Metrik (\(Balanced\;Accuracy\), Precision und F1) der beste auf 26, 27 und 28 Datenbanken ist. Darüber hinaus ist es mit 16, 14 bzw. 11 das zweitbeste Ergebnis. Bei Mehrklassenproblemen und insbesondere bei steigender Klassenanzahl verhält sich KBRELM in diesem Experiment ähnlich wie GGBRELM. Dies lässt sich dadurch erklären, dass das Problem umso komplexer wird, je höher die Anzahl der Klassen ist und die Algorithmen mit einer höheren Anzahl an Verbindungen profitieren, wie es bei Kerneln der Fall ist.
Für den Fall von E2, also wenn GGBRELM mehr Neuronen in seinen Basisklassifizierern aufweist, deuten die Ergebnisse jedoch darauf hin, dass er bei Binär- und Mehrklassenproblemen in allen Metriken im Durchschnitt eine bessere Leistung erbringt als der Rest der Algorithmen. Somit ist GGBRELM bei binären Problemen das beste in 20, 22 und 21 und das zweitbeste in 14, 13 und 13. Bei Problemen mit einer größeren Anzahl von Klassen ist er in 7, 8 und 7 der beste und in praktisch den übrigen Klassen der zweitbeste, was ihn im Durchschnitt zum besten Algorithmus macht.
Die Leistungen der betrachteten Methoden für E1 (\(D=10\)) und E2 (\(D=1000\)) in Regressionsdatensätzen sind in den Abbildungen dargestellt. 4 bzw. 5 ((a) RMSE, (b) \(R^2\)). Wie bei Klassifizierungsdatensätzen stellt die Y-Achse den Wert der gemeldeten Metrik dar, während die X-Achse die nach Größe sortierten IDs der Datensätze enthält. Wenn GGBRELM für einen Datensatz das beste ist, wird seine ID fett angezeigt, und wenn es das zweitbeste ist, wird es kursiv angezeigt. Im Fall der RMSE-Metrik ist die Leistung dieser Methode umso besser, je tiefer der Punkt im Diagramm liegt, da das Ziel darin besteht, diese Metrik zu minimieren. Das Gegenteil geschieht in der \(R^2\)-Metrik, da diese maximiert werden muss.
Leistungsdiagramm für Metriken für Regressionsdatensätze mit D = 10. Die Y-Achse stellt den Wert der Metrik dar, während die X-Achse die IDs der Datensätze sortiert nach Größe enthält. Wenn GGBRELM für diesen Datensatz am besten geeignet ist, wird seine ID in Fettdruck angezeigt, und wenn es der zweitbeste ist, wird er in Kursivschrift angezeigt.
Leistungsdiagramm für Metriken für Regressionsdatensätze mit D = 1000. Die Y-Achse stellt den Wert der Metrik dar, während die X-Achse die IDs der Datensätze sortiert nach Größe enthält. Wenn GGBRELM für diesen Datensatz am besten geeignet ist, wird seine ID in Fettdruck angezeigt, und wenn es der zweitbeste ist, wird er in Kursivschrift angezeigt.
Die Ergebnisse zeigen eindeutig, dass die GGBRELM-Methodik die alternativen Ansätze in beiden Experimenten und bei beiden Metriken übertrifft. Dieser Unterschied wird besonders deutlich bei Datensätzen, bei denen die anderen Methoden eine suboptimale Leistung aufweisen.
Somit ist GGBRELM im Fall von E1 die beste Methode in 44 Datensätzen und die zweitbeste in 4 Datensätzen in Bezug auf RMSE. Darüber hinaus ist es beim Vergleich von \(R^2\) die beste Methode in 43 Datensätzen und die zweitbeste in 5 Datensätzen. Mit einer geringen Anzahl an Neuronen übertrifft GBRELM auch ELM, da es ein schwacher Lerner ist. Allerdings scheint KBRELM bei Problemen dieser Art keine gute Leistung zu erbringen, da es von den vier Methoden der schlechteste Regressor ist.
Darüber hinaus überwindet GGBRELM in Experiment E2 den Nachteil von Ensemble-Natur-Methoden, indem es genauere Ergebnisse bezüglich RMSE und \(R^2\) erhält. Daher erreicht GGBRELM die bessere RMSE-Leistung in 34 Datensätzen und die zweitbeste in 14. Ebenso erreicht es die beste \(R^2\) in 28 Datensätzen und die zweitbeste in 19 Datensätzen.
Ebenso wie bei Klassifizierungsdatensätzen wurden vier Friedman-Tests durchgeführt, die die Ablehnung der Nullhypothese zeigten, da für \(\alpha = 5\%\) das Konfidenzintervall \(C_0 = (0, F_{0,05} = 2,66)\), und die statistischen Werte für RMSE und \(R^2\) sind \(F^* = 102,63\) und \(F^* = 101,97\) in E1 und \( F^* = 77,21\) und \(F^* = 91,05\) in E2 (Tabelle 4). Diese Tabelle zeigt auch die Ergebnisse des Holm-Tests zum Vergleich von RMSE und \(R^2\). Auch hier zeigt der Holm-Test bei Verwendung von GGBRELM als Kontrollalgorithmus (CA), dass \(p_i < \alpha ^*_i\) in allen Fällen für \(\alpha =0,05\) gilt, was bestätigt, dass es statistisch signifikante Unterschiede zugunsten gibt GGBRELM sowohl in Experimenten als auch in Metriken.
Die Regressionsdatensätze wurden von der höchsten zur kleinsten Größe geordnet und außerdem in drei Kategorien unterteilt, wie in Tabelle 2 gezeigt: 7 große Datensätze (IDs 1–7), 26 mittlere (ID 8–33) und 29 kleine (ID). 34-52).
Unter Berücksichtigung von E1 ist GGBRELM für große Datensätze der beste aller Datensätze für alle Metriken. Bei mittlerer Größe ist es in beiden Maßstäben das beste von 22 und das zweitbeste von 2 bzw. 3. Bei kleinen Datensätzen werden in beiden Metriken die besten Ergebnisse bei 15 und 14 und die zweitbesten bei 2 Datensätzen erzielt.
Im Fall von E2 ist GGBRELM für große Datensätze der beste in 6 Datensätzen und der zweitbeste in 1 für beide Metriken. Bei mittleren Datensätzen werden die besten Ergebnisse bei 19 und 11 erzielt, während die zweitbesten Ergebnisse bei 5 und 11 erzielt werden. Bei kleinen Datensätzen schließlich werden die besten bei 9 und 11 und die zweitbesten bei 8 und 7 erhalten.
In beiden Experimenten hat die Datensatzgröße keinen Einfluss, da der GGBRELM-Algorithmus in allen Fällen viel besser ist als die anderen. Es ist jedoch zu beobachten, dass in den fünf kleinsten Datenbanken der Leistungsunterschied von GGBRELM im Vergleich zu den anderen Methoden abnimmt, da ihnen die Komplexität fehlt und sie mit jeder Methode lösbar sind.
In diesem Artikel wird eine neue Ensemble-Methodik vorgestellt, die das Problem der Sättigung der Basislerner und eines Leistungsabfalls angeht, wenn starke Basislerner in der Ensemble-Methode verwendet werden, und eine iterative Vergrößerung des Ensembles vermeidet. Um dieses Problem zu lösen, führt diese Methode eine globale Optimierung in der Boosting Ridge-Methodik durch und verwendet Extreme Learning Machine-Modelle als Basislerner. Die vorgeschlagene Ensemble-Methode „Generalized Global Boosting Ridge for Extreme Learning Machine“ generiert einen Satz anfänglicher Eingabeschichtzuordnungen mit unterschiedlichen Parametern für ihre verborgenen Schichten. Die Gewichte der Ausgabeebene werden in einem Schritt optimiert, wodurch der Generalisierungsfehler des Ensembles verringert wird.
Es wurde ein vollständiges Experiment durchgeführt, bei dem 71 Klassifizierungsdatensätze berücksichtigt und deren Größe, die Anzahl der Klassen und das Ungleichgewichtsverhältnis analysiert wurden, sowie 52 Regressionsdatensätze unter Berücksichtigung ihrer Größe, alle aus verschiedenen Anwendungsdomänen. Die Experimente zeigen, dass i) die vorgeschlagene Generalized-Global-Ensemble-Methode für ELM Generalized Boosting Ridge in verschiedenen Kontexten, d hohe Anzahl von Neuronen, wodurch die Nachteile von Ensemble-Methoden in diesen Szenarien überwunden werden. Anstatt sich auf die Generierung von Diversität durch schwache Lernende (geringe Anzahl von Neuronen) zu verlassen, hängt unsere Methode von ihrer Optimierung bei der endgültigen Vorhersage des Ensembles als Ganzes ab und verlässt sich somit nicht auf die implizite Diversität der Zuordnung verborgener Neuronen.
In zukünftigen Arbeiten war geplant, das Ensemble-Lern-Framework an andere Basislerner und andere Paradigmen des maschinellen Lernens anzupassen, beispielsweise ordinale Regression oder halbüberwachtes Lernen. Und schließlich könnte die Anwendung der Methodik auf reale Probleme vorgeschlagen werden.
Die verwendeten Datenbanken sowie der zu ihrer Extraktion erforderliche Code sind unter https://github.com/cperales/uci-download-process verfügbar. Der im experimentellen Design generierte Code, einschließlich der vorgeschlagenen Methodik, ist unter https://github.com/cperales/pyridge verfügbar. Die vollständigen Tabellenergebnisse der aktuellen Studie sind auf begründete Anfrage beim entsprechenden Autor erhältlich.
Huang, G.-B., Zhu, Q.-Y. & Siew, C.-K. Extreme Lernmaschine: Theorie und Anwendungen. Neurocomputing 70, 489–501 (2006).
Artikel Google Scholar
Zhang, Y. et al. Multi-Kernel-Maschine für extremes Lernen zur EEG-Klassifizierung in Gehirn-Computer-Schnittstellen. Expertensystem. Appl. 96, 302–310 (2018).
Artikel Google Scholar
Pan, Z., Meng, Z., Chen, Z., Gao, W. & Shi, Y. Eine zweistufige Methode basierend auf einer extrem lernenden Maschine zur Vorhersage der verbleibenden Nutzungsdauer von Wälzlagern. Mech. Syst. Signalprozess. 144, 106899 (2020).
Artikel Google Scholar
Zuo, E. et al. Schnelle Erkennung des Fenchelursprungs durch Nahinfrarotspektroskopie basierend auf einer extrem lernenden Maschine. Wissenschaft. Rep. 12, 13593 (2022).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Khan, MA et al. Vorhersage einer Covid-19-Pneumonie basierend auf ausgewählten Tiefenmerkmalen und einer Kernel-Extreme-Learning-Maschine einer Klasse. Berechnen. Elektr. Ing. 90, 106960 (2021).
Artikel PubMed Google Scholar
She, Q., Zou, J., Meng, M., Fan, Y. & Luo, Z. Ausgewogene graphbasierte, regulierte, halbüberwachte extreme Lernmaschine für die EEG-Klassifizierung. Int. J. Mach. Lernen. Cybern. 12, 903–916 (2021).
Artikel Google Scholar
Sattar, AM, Ertuğrul, Ö. F., Gharabaghi, B., McBean, EA & Cao, J. Extrem lernendes Maschinenmodell für das Wassernetzwerkmanagement. Neuronale Berechnung. Appl. 31, 157–169 (2019).
Artikel Google Scholar
Ali, M. et al. Gekoppeltes Online-Sequential-Extreme-Learning-Maschinenmodell mit Ameisenkolonie-Optimierungsalgorithmus zur Vorhersage des Weizenertrags. Wissenschaft. Rep. 12, 5488 (2022).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Huang, G.-B., Zhou, H., Ding, X. & Zhang, R. Extreme Lernmaschine für Regression und Mehrklassenklassifizierung. IEEE Trans. Syst. Mann. Cybern. Teil B (Kybernetik) 42, 513–529 (2011).
Artikel Google Scholar
Hecht-Nielsen, R. Theorie des Backpropagation-Neuronalen Netzwerks. In Neural Networks for Perception 65–93 (Elsevier, USA, 1992).
Kapitel Google Scholar
De Chazal, P., Tapson, J. & Van Schaik, A. Ein Vergleich extrem lernender Maschinen und Back-Propagation-trainierter Feed-Forward-Netzwerke, die die mnist-Datenbank verarbeiten. Im Jahr 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2165–2168. (IEEE, 2015).
Huang, G.-B., Zhou, H., Ding, X. & Zhang, R. Extreme Lernmaschine für Regression und Mehrklassenklassifizierung. IEEE Trans. Syst. Mann Cybern. B Cybern. 42, 513–29 (2012).
Artikel PubMed Google Scholar
Miche, Y. et al. Op-ulme: Optimal beschnittene extreme Lernmaschine. IEEE Trans. Neuronales Netz. 21, 158–162 (2009).
Artikel PubMed Google Scholar
Yang, Y. & Duan, Z. Ein effektiver koevolutionärer Algorithmus basierend auf künstlichen Bienenvölkern und differentieller Evolution zur Optimierung der Zeitreihenvorhersage. Komplexe Intelligenz. Syst. 6, 299–308 (2020).
Artikel Google Scholar
Li, L., Qi, S., Zhou, H. & Wang, L. Vorhersage der Verformung durch Linienerwärmung auf Blech basierend auf einem ISSA-ELM-Modell. Wissenschaft. Rep. 13, 1252 (2023).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Khellal, A., Ma, H. & Fei, Q. Ensemble extremer Lernmaschinen für die Regression. Im Jahr 2018 IEEE 7. Data Driven Control and Learning Systems Conference (DDCLS) 1052–1057. (IEEE, 2018).
Zhai, J., Zhang, S., Zhang, M. & Liu, X. Fuzzy-Integral-basiertes Ulmen-Ensemble für unausgeglichene Big-Data-Klassifizierung. Weich. Berechnen. 22, 3519–3531 (2018).
Artikel Google Scholar
Song, G. & Dai, Q. Ein neuartiges Double-Deep-Ulmen-Ensemblesystem für die Zeitreihenvorhersage. Wissen. Basierend auf Syst. 134, 31–49 (2017).
Artikel Google Scholar
Zou, W., Yao, F., Zhang, B. & Guan, Z. Verbesserte Meta-Ulme mit Fehlerrückmeldung, inkrementelle Ulme als versteckte Knoten. Neuronale Berechnung. Appl. 30, 3363–3370 (2018).
Artikel Google Scholar
Raghuwanshi, BS & Shukla, S. Klassifizierung unausgeglichener Daten mithilfe eines Ensembles reduzierter, kerngewichteter, extrem lernender Maschinen. Int. J. Mach. Lernen. Cybern. 10, 3071–3097 (2019).
Artikel Google Scholar
Kumar, NK, Savitha, R. & Al Mamun, A. Vorhersage der Meereswellenhöhe mithilfe eines Ensembles extrem lernender Maschinen. Neurocomputing 277, 12–20 (2018).
Artikel Google Scholar
Chen, Z., Jiang, C. & Xie, L. Eine neuartige Ensemble-Ulme zur Erkennung menschlicher Aktivitäten mithilfe von Smartphone-Sensoren. IEEE Trans. Ind. Inf. 15, 2691–2699 (2018).
Artikel Google Scholar
Chen, H., Tan, C. & Lin, Z. Ensemble extrem lernender Maschinen für die multivariate Kalibrierung der Nahinfrarotspektroskopie. Spektrochem. Acta Teil A Mol. Biomol. Spectrosc. 229, 117982 (2020).
Artikel CAS Google Scholar
Xie, S. et al. Erkennung von Vogelgesängen basierend auf Ensemble-Ulmen mit differenzieller Evolution mit mehreren Strategien. Wissenschaft. Rep. 12, 9739 (2022).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Krogh, A. et al. Neuronale Netzwerk-Ensembles, Kreuzvalidierung und aktives Lernen. Adv. Neuronal. Inf. Verfahren. Syst. 7, 231–238 (1995).
Google Scholar
Breiman, L. Bagging-Prädiktoren. Mach. Lernen. 24, 123–140 (1996).
Artikel MATH Google Scholar
Freund, Y. & Schapire, RE Eine entscheidungstheoretische Verallgemeinerung des Online-Lernens und eine Anwendung auf Boosting. J. Comput. Syst. Wissenschaft. 55, 119–139 (1997).
Artikel MathSciNet MATH Google Scholar
Schaal, S. & Atkeson, CG Von der Isolation zur Kooperation: Eine alternative Sicht auf ein Expertensystem. In Fortschritte in neuronalen Informationsverarbeitungssystemen 605–611. (NIPS, 1996).
Bühlmann, P. & Yu, B. Boosting mit dem l2-Verlust: Regression und Klassifizierung. Marmelade. Stat. Assoc. 98, 324–339 (2003).
Artikel MATH Google Scholar
Singhal, Y., Jain, A., Batra, S., Varshney, Y. & Rathi, M. Überprüfung der Einsackung und Steigerung der Klassifizierungsleistung bei unausgeglichener binärer Klassifizierung. Im Jahr 2018 IEEE 8. International Advance Computing Conference (IACC) 338–343. (IEEE, 2018).
Ko, AH, Sabourin, R., De Oliveira, LE & De Souza Britto, A. Die Bedeutung der Datenvielfalt für eine klassifikatorfreie Ensembleauswahl in zufälligen Unterräumen. In der 19. Internationalen Konferenz zur Mustererkennung 2251–2255. (IKSR, 2008).
Tutz, G. & Binder, H. Steigerung der Ridge-Regression. Berechnen. Stat. Daten Anal. 51, 6044–6059 (2007).
Artikel MathSciNet MATH Google Scholar
Kodahl, AR et al. Neuartige zirkulierende microRNA-Signatur als potenzieller nicht-invasiver Multimarkertest bei ER-positivem Brustkrebs im Frühstadium: eine Fallkontrollstudie. Mol. Oncol. 8, 874–883 (2014).
Artikel CAS PubMed PubMed Central Google Scholar
Binder, H. & Schumacher, M. Einbeziehung von Pfadinformationen zur Verbesserung der Schätzung hochdimensionaler Risikovorhersagemodelle. BMC Bioinform. 10, 1–11 (2009).
Artikel Google Scholar
Tollenaar, N. & van der Heijden, PGM Optimierung der Vorhersageleistung von kriminellen Rückfallmodellen unter Verwendung von Registrierungsdaten mit binären und Überlebensergebnissen. PLoS ONE 14, 1–37 (2019).
Artikel Google Scholar
Brown, G., Wyatt, JL & Tiňo, P. Diversitätsmanagement in Regressionsensembles. J. Mach. Lernen. Res. 6, 1621–1650 (2005).
MathSciNet MATH Google Scholar
Cai, Y., Liu, X., Zhang, Y. & Cai, Z. Hierarchisches Ensemble extrem lernender Maschinen. Mustererkennung. Lette. 116, 101–106 (2018).
Artikel ADS Google Scholar
Xue, X., Yao, M., Wu, Z. & Yang, J. Genetisches Ensemble extremer Lernmaschinen. Neurocomputing 129, 175–184. https://doi.org/10.1016/j.neucom.2013.09.042 (2014).
Artikel Google Scholar
Lin, S.-B., Lei, Y. & Zhou, D.-X. Verstärkte Kernel-Ridge-Regression: Optimale Lernraten und frühes Stoppen. J. Mach. Lernen. Res. 20, 1738–1773 (2019).
MathSciNet MATH Google Scholar
Sun, T. & Zhou, Z.-H. Strukturelle Vielfalt für das Lernen von Entscheidungsbaum-Ensembles. Vorderseite. Berechnen. Wissenschaft. 12, 560–570 (2018).
Artikel Google Scholar
Dietterich, TG Ensemble-Methoden im maschinellen Lernen. Im International Workshop on Multiple Classifier Systems 1–15 (Springer, 2000).
Ran, Y. et al. Boosting Ridge extreme Lernmaschine. In Proceedings – 2012 IEEE Symposium on Robotics and Applications, ISRA 2012 881–884 (2012).
Deng, W., Zheng, Q. & Chen, L. Regularisierte extreme Lernmaschine. Im Jahr 2009 IEEE-Symposium zu Computational Intelligence und Data Mining 389–395. (IEEE, 2009).
Castaño, A., Fernández-Navarro, F. & Hervás-Martínez, C. PCA-ELM: Ein robuster und beschnittener extrem lernender Maschinenansatz basierend auf der Hauptkomponentenanalyse. Neuronaler Prozess. Lette. 37, 377–392 (2013).
Artikel Google Scholar
Cervellera, C. & Macciò, D. Punkte mit geringer Diskrepanz für die deterministische Zuweisung versteckter Gewichte in extrem lernenden Maschinen. IEEE Trans. Neuronales Netz. Lernen. Syst. 27, 891–896 (2015).
Artikel MathSciNet PubMed Google Scholar
Cook, SA Ein Überblick über die Rechenkomplexität. Komm. ACM 26, 400–408 (1983).
Artikel MathSciNet MATH Google Scholar
Durán-Rosal, AM, Durán-Fernández, A., Fernández-Navarro, F. & Carbonero-Ruz, M. Ein Mehrklassen-Klassifizierungsmodell mit parametrisierten Zielausgaben für randomisierte Feedforward-Neuronale Netze. Appl. Soft Comput. 133, 109914 (2023).
Artikel Google Scholar
Dua, D. & Graff, C. UCI-Repository für maschinelles Lernen (2017).
Gewinner, L. Verschiedene Datensätze (2020).
Torgo, L. Regressionsdatensätze (2020).
Harris, D. Digitales Design und Computerarchitektur (Elsevier/Morgan Kaufmann, Amsterdam, 2012).
Google Scholar
Friedman, M. Ein Vergleich alternativer Signifikanztests für das Problem der m-Rankings. Ann. Mathematik. Stat. 11, 86–92 (1940).
Artikel MathSciNet MATH Google Scholar
Demšar, J. Statistische Vergleiche von Klassifikatoren über mehrere Datensätze. J. Mach. Lernen. Res. 7, 1–30 (2006).
MathSciNet MATH Google Scholar
Referenzen herunterladen
Diese Arbeit wurde vollständig durch die Forschungsmittel der „Universidad Loyola Andalucía“ unterstützt.
Abteilung für quantitative Methoden, Universidad Loyola Andalucía, Córdoba, Spanien
Carlos Peralez-González, Javier Pérez-Rodríguez und Antonio M. Durán-Rosal
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
CPG und AMDR verarbeiteten die experimentellen Daten; CPG führte die Analyse und Umsetzung durch; JPR hat die Figuren entworfen; AMDR und JPR waren an der Planung und Überwachung der Arbeiten beteiligt; Alle Autoren haben das Manuskript geschrieben und rezensiert.
Korrespondenz mit Javier Pérez-Rodríguez.
Die Autoren geben an, dass keine Interessenkonflikte bestehen.
Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.
Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.
Nachdrucke und Genehmigungen
Peralez-González, C., Pérez-Rodríguez, J. & Durán-Rosal, AM Boosting Ridge für die extreme Lernmaschine, global optimiert für Klassifizierungs- und Regressionsprobleme. Sci Rep 13, 11809 (2023). https://doi.org/10.1038/s41598-023-38948-3
Zitat herunterladen
Eingegangen: 21. März 2023
Angenommen: 18. Juli 2023
Veröffentlicht: 21. Juli 2023
DOI: https://doi.org/10.1038/s41598-023-38948-3
Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:
Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.
Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt
Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.