banner
Nachrichtenzentrum
Ansprechendes Design

Vergleich und Ranking von Algorithmen für künstliche Intelligenz zur Gewichtsvorhersage bei Schafen

Jun 29, 2023

Wissenschaftliche Berichte Band 13, Artikelnummer: 13242 (2023) Diesen Artikel zitieren

384 Zugriffe

3 Altmetrisch

Details zu den Metriken

In einer sich schnell verändernden Welt nehmen die landwirtschaftlichen Daten exponentiell zu. Forscher sind sich der Bedeutung dieser Daten bewusst und suchen nach neuen Lösungen, um diese Daten zu analysieren und landwirtschaftliche Vorhersagen zu treffen. Künstliche Intelligenz mit ihrer Fähigkeit, große Datenmengen zu verarbeiten, erfreut sich immer größerer Beliebtheit. Darüber hinaus kann es auch mit nichtlinearen, verrauschten Daten umgehen und ist nicht durch die für die herkömmliche Datenanalyse erforderlichen Bedingungen eingeschränkt. Diese Studie wurde daher durchgeführt, um die beliebtesten Algorithmen für maschinelles Lernen (ML) zu vergleichen und sie nach ihrer Fähigkeit einzustufen, Vorhersagen zu Schaffarmdaten über einen Zeitraum von 11 Jahren zu treffen. Die Daten wurden vor der Analyse bereinigt und aufbereitet. Zur Entfernung von Ausreißern wurde eine Winsorisierung durchgeführt. Es wurden eine Hauptkomponentenanalyse (PCA) und eine Merkmalsauswahl (FS) durchgeführt und auf dieser Grundlage drei Datensätze erstellt, nämlich: PCA (wobei nur PCA verwendet wurde), PCA+ FS (beide Techniken wurden zur Dimensionsreduktion verwendet) und FS (nur Merkmalsauswahl verwendet) zur Vorhersage des Körpergewichts. Unter den 11 ML-Algorithmen, die bewertet wurden, wurden die Korrelationen zwischen wahren und vorhergesagten Werten für den MARS-Algorithmus, die Bayessche Ridge-Regression, die Ridge-Regression, Support Vector Machines, den Gradient Boosting-Algorithmus, Random Forests, den XgBoost-Algorithmus, künstliche neuronale Netze, Klassifizierungs- und Regressionsbäume, Polynomregression, K nächste Nachbarn und genetische Algorithmen betrugen 0,993, 0,992, 0,991, 0,991, 0,991, 0,99, 0,99, 0,984, 0,984, 0,957, 0,949 bzw. 0,734 für das Körpergewicht. Die fünf wichtigsten Algorithmen für die Vorhersage von Körpergewichten waren MARS, Bayesian Ridge Regression, Ridge Regression, Support Vector Machines und Gradient Boosting Algorithmus. In der vorliegenden Studie wurden insgesamt 12 Modelle für maschinelles Lernen zur Vorhersage des Körpergewichts bei Schafen entwickelt. Man kann sagen, dass Techniken des maschinellen Lernens Vorhersagen mit angemessener Genauigkeit treffen können und somit dabei helfen können, Schlussfolgerungen zu ziehen und futuristische Vorhersagen für landwirtschaftliche Betriebe hinsichtlich ihres wirtschaftlichen Wohlstands, ihrer Leistungsverbesserung und damit der Ernährungssicherheit zu treffen.

Prognosen zufolge wird die Weltbevölkerung bis 2050 auf 9,9 Milliarden Menschen ansteigen und die weltweite Nachfrage nach verschiedenen Fleisch- und Tierprodukten wird in den nächsten Jahrzehnten um über 70 % steigen1. Daher besteht ein dringender Bedarf, die Nahrungsmittelproduktion bis 2050 zu steigern, indem die Produktion auf nahezu derselben Landfläche und unter Verwendung derselben Ressourcen intensiviert wird. Dies übt auch Druck auf den Tierhaltungssektor aus, da nun die Notwendigkeit besteht, mehr Tiere unter Nutzung der begrenzten Land-, Wasser- und anderen natürlichen Ressourcen zu produzieren. Das bedeutet, dass wir neue und innovative Ansätze finden müssen, um mehr Lebensmittel zu produzieren, was trotz des enormen genetischen Reichtums eine große Herausforderung für Tierwissenschaftler darstellt2,3. Um diesem Problem entgegenzuwirken, werden in Tierhaltungsbetrieben neue Technologien eingeführt, die sich von traditionell zu hochtechnologisch entwickeln4. Landwirtschaftliche Abläufe werden immer stärker automatisiert und der Einsatz von Sensoren nimmt in allen Aspekten der landwirtschaftlichen Betriebsführung zu. Dies reduziert nicht nur den Aufwand und die Arbeit, sondern führt auch zu einem exponentiellen Anstieg der täglich generierten Datenmenge. All dies führt zu einem exponentiellen Anstieg der landwirtschaftlichen Daten. Die traditionellen Methoden und konventionellen Strategien sind nicht ganz in der Lage, mit diesen enormen Daten Schritt zu halten, was insbesondere in Entwicklungsländern zu rückläufigen Produktionstrends führt5,6,7,8,9,10.

Da künstliche Intelligenz alle Branchen tiefgreifend verändert, bietet sie Lösungen für die analytischen Probleme der Tierhaltung und der Veterinärwissenschaften11. Diese würden dabei helfen, viele Aspekte des landwirtschaftlichen Managements nachzuweisen, die für die Reduzierung der Sterblichkeit und die Verbesserung der Produktivität wichtig sind12. Sie können nicht nur Daten effizient verarbeiten, sondern auch Rückschlüsse ziehen, die bisher unbekannt waren, da ML-Techniken über Fähigkeiten verfügen, die in herkömmlichen Techniken nicht vorhanden sind. Die Modellierungstoleranz solcher Methoden ist erheblich höher als bei statistischen Methoden. Dies liegt daran, dass im ML keine Annahmen oder Hypothesentests erforderlich sind. Darüber hinaus bietet ML Vorteile wie die Fähigkeit, nichtlineare, ungenaue und verrauschte Daten zu verarbeiten. All dies macht diesen Wissenschaftsbereich viel flexibler als herkömmliche statistische Modelle.

Der Einsatz künstlicher Intelligenz in der Landwirtschaft erfreut sich immer größerer Beliebtheit. Allerdings sind die Studien, die die beliebtesten überwachten Lernalgorithmen vergleichen und bewerten, noch dürftig. Forschung zum Vergleich verschiedener Techniken des maschinellen Lernens in den Tierwissenschaften zur Vorhersage von Krankheiten11, Leistung13, Schlupffähigkeit14, Laktation15, genetischen Vorzügen12,16,17,18, Körpergewichten19, Krankheitsdiagnose20 und -vorhersagen21,22, Immunität23 und sogar in molekularen Studien wie der Transkriptomik24 , RNA-Sequenzierung, Genexpression25, genetische Selektion26 usw. In allen genannten Studien haben sich Algorithmen wie künstliche neuronale Netze, Support Vector Machines, K-Nearest Neighbors usw. als sehr nützlich und in den meisten Fällen besser als die herkömmlichen Ansätze erwiesen große Datenmenge.

Wissenschaftler haben berichtet, dass mehrere Algorithmen vielversprechend für die Lösung verschiedener Probleme in den Tierwissenschaften sind. Die Vorhersage der zukünftigen Leistung ist ein entscheidender Bereich, der, wenn er genau durchgeführt wird, dabei helfen kann, wichtige Entscheidungen zur Verbesserung sowohl der Produktion als auch des Einkommens zu treffen. Diese Studie wurde daher durchgeführt, um die gängigsten ML-Algorithmen zu vergleichen und sie nach ihrer Fähigkeit einzustufen, Vorhersagen zu Schaffarmdaten zu treffen. Es wurde auch versucht, die Modelle zu verfeinern, damit einsetzbare Modelle entwickelt werden konnten.

Unsere Ergebnisse zeigten, dass die Imputation die fehlenden Werte im Datensatz effektiv entfernte. Unter Berücksichtigung aller Variablen für den Datensatz (zur Vorhersage des Körpergewichts), die in der Hauptkomponentenanalyse eine Varianz von über 95 % aufwiesen, wurden insgesamt 23 Merkmale abgerufen, um den PCA-Datensatz zu erstellen. Der FS-Datensatz wurde unter Verwendung von Features im ursprünglichen Datensatz mit F-Scores größer als 10 erstellt. Auf diese Weise betrug die Anzahl der Features im FS-Datensatz 28. Für den Datensatz, der nach PCA ausgewählte Features enthielt, wurden 6 Features für den endgültigen Datensatz ausgewählt (PCA und FS) mit Werten über 4. Die Werte für die ersten 6 Hauptkomponenten waren 1357,04, 29,97, 20,24, 13,68, 11,68 und 4,29. Die Multikollinearität wurde durch PCA effektiv reduziert. Das Paardiagramm für Multikollinearität für den PCA+ FS-Datensatz für das Körpergewicht ist in Abb. 1 dargestellt.

Für die Bayes'sche Kammregression betrugen RMSE, MAE, Bestimmtheitsmaß und Korrelationskoeffizient für den PCA-Datensatz 1,084, 0,872, 0,940 und 0,979 und für den FS-Datensatz 0,926, 0,816, 0,957, 0,992 und für den FCA + FS-Datensatz sie betrugen 1,179, 0,93, 0,923 und 0,974. Für die Ridge-Regression betrugen RMSE, MAE, Bestimmtheitsmaß und Korrelationskoeffizient für den PCA-Datensatz 1,082, 0,871, 0,940 und 0,979, für den FS-Datensatz 0,939, 0,822, 0,955, 0,991 und für den FCA+FS-Datensatz betrugen 1,178, 0,930, 0,924 bzw. 0,974. Die Ergebnisse der Bayes'schen Ridge-Regression und der Ridge-Regression waren sehr ähnlich. Der FS-Datensatz hatte den höchsten Korrelationskoeffizienten.

Paardiagramm für Multikollinearität für den PCA+ FS-Datensatz.

Hyperparameter-Optimierungsdiagramm für 1000 Iterationen.

Das Hyperparameter-Optimierungsdiagramm für tausend Iterationen ist in Abb. 2 dargestellt. Die Ergebnisse des Trainings von ANNs sind in Tabelle 1 aufgeführt. Unsere Ergebnisse zeigten, dass der PCA+FS-Datensatz früher konvergierte als die beiden anderen Datensätze. Die durch die Hyperparameteroptimierung erzielten Ergebnisse wurden heuristisch weiter verfeinert und die Modelle konnten dadurch nicht mehr verbessert werden. Daraus lässt sich schließen, dass in diesem Fall die Anwendung guter Suchalgorithmen ausreichte, um optimale Ergebnisse zu erzielen. Von den drei Datensätzen zeigte der PCA-Datensatz den höchsten Korrelationskoeffizienten von 0,977. Dieser Datensatz hatte auch die höchste Anzahl an Neuronen pro Schicht. Dieser Datensatz zeigte im Vergleich zu den anderen Datensätzen auch die niedrigsten MSE-, MAE- und Verlustwerte. Der FS-Datensatz allein schnitt besser ab als der PCA+FS-Datensatz und der PCA-Datensatz. Die Reduzierung der Anzahl der Features in diesem Datensatz reichte nicht aus, um die höchste Vorhersagefähigkeit dieses Datensatzes zu erreichen. Die Suchergebnisse ergaben, dass die Sigmoid-Aktivierungsfunktion sowie eine niedrige Lernrate die am besten geeignete Funktion für die Vorhersage von Körpergewichten sind. Bei der Optimierung der Hyperparameter schnitten sowohl der stochastische Gradientenabstieg (sgd) als auch Adam als Optimierer gut ab. Bei der Aktivierungsfunktion schnitten sowohl ReLU als auch Sigmoid besser ab als die anderen. Von den trainierten Hyperparametern waren ReLU (rectified linear unit) und Adam (adaptive Momentschätzung) die besten Optimierer bzw. Aktivierungsfunktionen. Die Anzahl der verborgenen Schichten betrug nach Anwendung genetischer Algorithmen für alle Baummodelle 9. Mit zunehmender Anzahl der Iterationen stieg auch der Korrelationskoeffizient. Es zeigte sich auch, dass die Korrelationskoeffizienten umso höher waren, je höher die Anzahl der Iterationen war.

Genetische Algorithmen waren ausreichend in der Lage, das Körpergewicht von Schafen vorherzusagen, allerdings weniger effizient als die anderen Algorithmen. Die Vorhersagekraft genetischer Algorithmen war die niedrigste unter allen trainierten Algorithmen zur Vorhersage des Körpergewichts. Unter den drei Datensätzen (PCA, PCA+FS sowie FS) zur Körpergewichtsvorhersage ergab der PCA+FS-Datensatz den höchsten Korrelationskoeffizienten zwischen wahren und vorhergesagten Zuchtwerten. Die Anzahl der Generationen, die Fitnessschwelle, die Popgröße, die Aktivierungsmutationsrate, RMSE, MAE, R2 und die Korrelationskoeffizienten für den PCA-Datensatz betrugen 100, 0,980, 300, 0,001, 1,930, 1,248, 0,835, 0,874, FS + PCA-Datensatz waren 100, 0,980, 300, 0,001, 1,322, 1,031, 0,917 und 0,944, während sie für den FS-Datensatz 100, 0,980, 300, 0,001, 1,363, 1,036, 0,929 bzw. 0,940 betrug. Das beste mithilfe genetischer Algorithmen entwickelte Modell hatte die Anzahl der Generationen, die Fitnessschwelle, die Populationsgröße, die Aktivierungsmutationsrate RMSE, MAE, R2 und einen Korrelationskoeffizienten von 100, 0,980, 300, 0,001, 1,322, 1,031 und 0,917.

Der FS-Datensatz hatte den höchsten Korrelationskoeffizienten mit den Testetiketten der Hyperparameter, für die die Rastersuche durchgeführt wurde. Die Hyperparameter dafür waren „C“: 1000, „gamma“: 1 und „kernel“: „linear“. Tabelle 2 zeigt die Ergebnisse, die beim Training und Testen dieses Algorithmus erzielt wurden. Der lineare Kernel übertraf durchweg den rbf-Kernel, was weiter besagt, dass die Gewichtsvorhersagedaten linear trennbar sind. Unterstützungsvektormaschinen für die Vorhersage des Körpergewichts unter Verwendung des Standardparameters kernel = rbf hatten RMSE, MAE, R2 und die Korrelation für den FS-Datensatz betrug 1,569, 1,005, 0,832 bzw. 0,944, für den PCA+ FS-Datensatz betrugen sie 1,461, 1,012, 0,861 und 0,959, während sie für PCA 1,538, 1,025, 0,834 bzw. 0,956 betrugen. Die Hyperparameteroptimierung ergab die besten Hyperparameter von „C“: 1000, „gamma“: 1, „kernel“: „linear“ für den FS-Datensatz, „C“: 1000, „gamma“: 0,0001, „kernel“: „rbf“. ' für den PCA- und FS-Datensatz und 'C': 100, 'gamma': 0,001, 'kernel': 'rbf' für den PCA-Datensatz. Das am besten trainierte Modell hatte die folgenden Parameter: C: 1000, Gamma: 1 Kernel: linear.

Die Optimierung der Hyperparameter verbesserte die Vorhersageergebnisse, wobei die Zufallssuche für die Zuchtwertvorhersage bei den meisten Vorhersagen eine bessere Leistung erbrachte als die Rastersuche, mit Ausnahme von FS, wo die Rastersuche die besten Korrelationsergebnisse lieferte. Für Bootstrap = TRUE und Max Features = Auto für die Suchalgorithmen. Die höchste Korrelation (0,990) wurde für den FS-Datensatz mit Rastersuche erhalten. Ohne Hyperparameter schnitt der FS-Datensatz für Regressionsbäume am besten ab. Der FS-Datensatz wies im Vergleich zu anderen Datensätzen mit allen Algorithmen die höchste Korrelation auf. Die Optimierung der Hyperparameter verbesserte die Vorhersagefähigkeit der Zufallswälder (Tabelle 2).

Der Datensatz zur Merkmalsauswahl (FS) hatte den höchsten Korrelationskoeffizienten für den Gradient-Boost-Algorithmus mit oder ohne Hyperparameter. Die Trainingsergebnisse für den Algorithmus sind in Tabelle 3 aufgeführt.

Die höchste Korrelation wurde für den FS-Datensatz gefunden, wobei die durchschnittliche Korrelation bis zu 0,901 erreichte. Das Polynom 1. Grades ergab das am besten geeignete Modell. Die Trainingsergebnisse für den Algorithmus sind in Tabelle 3 aufgeführt. Die MAE-Werte für die PCA-, FS- und FS+PCA-Datensätze betrugen 1,096, 0,709 bzw. 1,078.

Der FS-Datensatz hatte den höchsten Korrelationskoeffizienten für den Testdatensatz mit dem XGBoost-Algorithmus. Alle Werte sind in Tabelle 3 angegeben. Die für die Ausführung des Algorithmus verstrichene Zeit war für den PCA+FS-Datensatz am größten. Die Wandzeiten für die Datensätze PCA, FS und FS + PCA betrugen 93 ms, 91 ms bzw. 511 ms. Colsample-Bytree, Lernrate, maximale Tiefe, minimales Kindergewicht, N-Schätzer und Teilstichprobe für den PCA-Datensatz waren 0,7, 0,05, 3, 5, 1000 und 0,5, für den FS-Datensatz waren 0,7, 0,1, 3, 3, 1000 und für Im FS+PCA-Datensatz betrugen sie 0,7, 0,01, 5, 5, 1000, 0,5 bzw. 0,7.

Die höchste Korrelation zwischen wahren und vorhergesagten Werten wurde für den FS + PCA-Datensatz gefunden (Tabelle 3). Der PCA-Datensatz hatte bei Verwendung der Hyperparameter-Optimierung die höchste n-Nachbarschaft. Die N Nachbarn für die PCA-, FS- und FS + PCA-Datensätze betrugen jeweils 7,4,3.

Der vorhergesagte und wahre Korrelationskoeffizient betrug 0,993 bei Anwendung multivariater adaptiver Regressions-Splines. Der höchste Korrelationskoeffizient wurde für den FS-Datensatz gefunden. Alle Werte sind in Tabelle 3 angegeben.

Für die Körpergewichtsvorhersage lieferte der MARS-Algorithmus die besten Vorhersagen basierend auf dem Korrelationskoeffizienten (Tabelle 4) und für die Zuchtwertvorhersage lieferten die baumbasierten Algorithmen die besten Ergebnisse. Zufällige Wälder hatten den höchsten Korrelationskoeffizienten (Tabelle 4). Der FS-Datensatz übertraf in den meisten Fällen die PCA- und PCA+FS-Datensätze, mit Ausnahme genetischer Algorithmen und neuronaler Netze, die sowohl durch Hyperparameteroptimierung als auch durch heuristische Modellierung und KNN trainiert wurden (jedoch nur mit sehr geringem Vorsprung). Bei genetischen Algorithmen lieferte der Datensatz mit der geringsten Anzahl an Merkmalen die besten Korrelationskoeffizienten. Bei der Hauptkomponentenregression schnitt der PCA-Datensatz am besten ab. Die Bayes'sche Regression übertraf die Ridge-Regression geringfügig. Die Korrelationen zwischen wahren und vorhergesagten Werten sind in den Abbildungen dargestellt. 3 und 4.

Paardiagramm für Multikollinearität für den PCA+FS-Datensatz.

Korrelation zwischen wahren und vorhergesagten Werten von ML-Algorithmen.

Insgesamt wurden alle Werte, die bei der Geburt in den Daten erfasst werden sollen, sorgfältiger erfasst als die Parameter, die später im Leben des Tieres erfasst werden sollen. Fehlende Werte sind in Datensätzen aus der realen Welt allgegenwärtig, und in der Literatur wurde auch die Verwendung von Winsorisierung veröffentlicht, um der Verteilung wünschenswertere statistische Eigenschaften zu verleihen, um das Gewicht einflussreicher Beobachtungen zu verringern und unerwünschte Auswirkungen von Ausreißern zu beseitigen, ohne eine stärkere Verzerrung einzuführen. Anderson et al.27 wandelten einen viel höheren Bereich um, nämlich. die oberen und unteren 10 % der Daten bis zum 90. Perzentil mit etwas Fehlereintrag. In dieser Studie wurde ein zweiseitiger Winsorisierungsansatz verwendet, der sich ebenfalls als besser erwies als der einseitige Ansatz von Chambers et al.28 und Hamadani et al.29.

Die Ergebnisse der vorliegenden Studie zeigen, dass die Anzahl der Merkmale im Datensatz mithilfe der Hauptkomponentenanalyse effektiv reduziert wurde, was die effektive Anzahl der Parameter, die das zugrunde liegende Modell charakterisieren, erheblich verringerte. Die in verschiedenen Altersstufen ab der Entwöhnung gemessenen Körpergewichte wiesen die höchsten Merkmalswerte auf. Dies ist zu erwarten, da es auch aus den Wachstumskurven verschiedener Tiere hervorgeht, bei denen das Körpergewicht der wichtigste Parameter ist30.

Forscher haben gezeigt, dass die Funktionsauswahl die Leistung von Lernalgorithmen sowohl hinsichtlich der Rechenzeit als auch der Genauigkeit verbessert31,32. Unsere Ergebnisse zur PCA-Reduzierung der Multikollinearität auf 1 stimmen mit den Ergebnissen vieler Autoren überein33,34, da PCA in der Literatur als eine der häufigsten Methoden zur Reduzierung der Multikollinearität im Datensatz beschrieben wurde. Der FS-Datensatz wies eine hohe Multikollinearität auf, da die Merkmalsauswahl die Anzahl der Gesamtmerkmale verringert, ohne die im Datensatz vorhandene Multikollinearität zu berücksichtigen. In der Literatur wurde berichtet, dass Multikollinearität keinen Einfluss auf die Vorhersagekraft oder Zuverlässigkeit des endgültigen Modells hat. Die Modellvorhersagen für die Ridge-Regression und den Bayesian Ridge, die unseren ähneln, wurden von19 berichtet, die auch verschiedene Techniken des maschinellen Lernens für die Vorhersage von Gewichten verwendeten und hohe R2-Werte nahe 0,988 meldeten. Für das Training des Modells wurde eine zehnfache Kreuzvalidierung verwendet, die laut Berichten von 19 auch am besten geeignet war. Allerdings35 verwendeten für ihre Studie eine 20-fache Kreuzvalidierung, um Zuchtwerte vorherzusagen.

Ein hohes Bestimmtheitsmaß (0,92) wurde auch von Kumar et al.36 und Adebiyi et al.37 für die Schätzung des Gewichts aus Messungen und die Vorhersage von Krankheiten angegeben, während38 R2-Werte von 0,70, 0,784 und 0,74 für die Vorhersage des Körpergewichts berichteten bei drei ägyptischen Schafrassen, Morkaraman-Schafen und bei Malabari-Ziegen. Der R2-Wert sowie der Korrelationskoeffizient des PCA-Datensatzes waren größer als der PCA+FS-Datensatz, woraus geschlossen werden kann, dass PCA nicht nur eine wirksame Technik zur Datenreduzierung, sondern auch zur weiteren Datenreduzierung im Datensatz ist verursachte einen gewissen Varianzverlust im Datensatz.

Im Vergleich zur heuristischen Modellierung dauerte die Ausführung von Optimierungsalgorithmen länger. Mit zunehmender Anzahl der Berechnungen werden diese immer schwieriger zu lösen und verbrauchen immer mehr Rechenleistung, was manchmal sogar zu Systemabstürzen führt. Dies liegt daran, dass Optimierungsalgorithmen eine viel größere Anzahl verfügbarer Optionen testen, um den besten Modus abzustimmen.

Unsere Ergebnisse zeigen, dass alle drei trainierten Datensätze hinsichtlich des Korrelationskoeffizienten oder Trainingsfehlers vergleichbar sind. Der PCA+FS-Datensatz konvergierte bei der Hyperparameteroptimierung früher als die anderen beiden Datensätze, was möglicherweise daran liegt, dass die Anzahl der Features in diesem Datensatz geringer ist als die der anderen beiden und die Konvergenz daher früher auftrat als bei den anderen beiden Datensätzen. Dies ist wichtig für die Trainingseffizienz, insbesondere wenn die Datensätze groß sind und die Rechenleistung, die dem Forscher zur Verfügung steht, begrenzt ist.

Von den drei Datensätzen, die sowohl durch Hyperparameteroptimierung als auch durch heuristische Modellierung trainiert wurden, zeigte der PCA-Datensatz den höchsten Korrelationskoeffizienten von 0,977. Daraus lässt sich schließen, dass PCA sich effizient um die Auswahl der Merkmale gekümmert hat, die die Varianz der Daten ausreichend erklären konnten. FS allein schnitt besser ab als der PCA+FS-Datensatz, was weiter besagt, dass einige der erklärten Varianzen möglicherweise verloren gegangen sind, wenn beide Techniken zusammen verwendet wurden. Die Reduzierung der Anzahl der Features in diesem Datensatz allein reichte nicht aus, um die höchste Vorhersagefähigkeit dieses Datensatzes zu erreichen. Höhere Korrelation für die Vorhersage der Fettausbeute von 0,93 bei Vorhersage durch ANN von Shahinfar et al.39. Peters et al. (2016) verwendeten das MLP-ANN-Modell, um prädiktive Korrelationen von 0,53 für das Geburtsgewicht, 0,65 für das 205-Tage-Gewicht und 0,63 für das 365-Tage-Gewicht zu erzielen, was viel niedriger ist als unsere Vorhersage. Khorshidi-Jalali und Mohammadabadi40 verglichen ANNs und Regressionsmodelle zur Ermittlung des Körpergewichts bei Kaschmirziegen und stellten fest, dass die Leistungsfähigkeit des künstlichen neuronalen Netzwerkmodells besser ist. Im Gegensatz zu unseren Ergebnissen lag dieser Wert für ANN jedoch bei 0,86.

Genetische Algorithmen schnitten im Vergleich zu anderen Algorithmen schlecht ab. Die niedriger als erwarteten Werte können auch der Grund dafür sein, dass genetische Algorithmen selten für die direkte Regression verwendet werden. Es wurde auch berichtet, dass genetische Algorithmen besser für die Optimierung großer und komplexer parametrischer Räume geeignet seien41.

Für SVM hatte der FS-Datensatz den höchsten Korrelationskoeffizienten mit den Testbezeichnungen und den Hyperparametern, für die die Rastersuche durchgeführt wurde. Der lineare Kernel übertraf durchweg den rbf-Kernel, was darauf hindeutet, dass die Gewichtsvorhersagedaten linear trennbar sind. Es wurde berichtet, dass der rbf-Kernel bei der nichtlinearen Funktionsschätzung eine bessere Leistung erbringt, indem er verhindert, dass Rauschen eine hohe Generalisierungsfähigkeit aufweist42. Ben-Hur et al.43 beobachteten außerdem, dass nichtlineare Kernel, Gaußsche oder Polynomkerne, im Vergleich zu einem linearen Kernel nur zu einer geringfügigen Leistungsverbesserung führen. Unter Verwendung eines linearen Kernels berichteten Long et al.44 jedoch über einen niedrigeren Korrelationskoeffizienten von 0,497–0,517 für die Vorhersage quantitativer Merkmale. Alonso et al.45 verwendeten auch drei verschiedene SVR-Techniken zur Vorhersage des Körpergewichts und berichteten über höhere Vorhersagefehler (MAE) von 9,31 ± 8,00, 10,98 ± 11,74, 9,61 ± 7,90 für die drei Techniken. Huma und Iqbal19 verwendeten auch die Support-Vektor-Regression zur Vorhersage des Körpergewichts bei Schafen und berichteten über Korrelationskoeffizienten R2, MAE und RMSE von 0,947, 0,897, 3,934 bzw. 5,938, die nahe an den Werten der vorliegenden Forschung liegen.

Die Optimierung der Hyperparameter verbesserte die Vorhersageergebnisse, wobei die Zufallssuche für die Zuchtwertvorhersage bei den meisten Vorhersagen eine bessere Leistung erbrachte als die Rastersuche, mit Ausnahme von FS, wo die Rastersuche die besten Korrelationsergebnisse lieferte. Die Zufallssuche ist der Rastersuche sehr ähnlich, es wurde jedoch immer wieder berichtet, dass sie vergleichsweise bessere Ergebnisse liefert46, indem sie effektiv einen größeren, weniger vielversprechenden Konfigurationsraum durchsucht.

Aufgrund der unterschiedlichen Relevanz von Hyperparametern für verschiedene vorliegende Modelle ist die Rastersuche manchmal eine schlechte Wahl für die Konstruktion von Algorithmen für verschiedene Datensätze. Hyperparameter verbesserten die Vorhersagefähigkeit der Zufallswälder, was ebenfalls veröffentlicht wurde47,48. Huma und Iqbal19 verwendeten ebenfalls Regressionsbäume für die gleiche Vorhersage und berichteten über R2 und MAE von 0,896 bzw. 4,583. Sie verwendeten auch Zufallswälder zur Vorhersage des Körpergewichts bei Schafen und berichteten über Korrelationskoeffizienten R2, MAE und RMSE von 0,947, 0,897, 3,934 bzw. 5,938. Im Vergleich zu anderen Modellen. Viele Autoren19,49 haben die Random-Forests-Methode angegeben und ihre Varianten erzeugen die geringsten Fehler. Niedrigere Werte für Random Forests (RF) wurden von Jahan et al.50 berichtet, die einen R2 von 0,911 für die Körpergewichtsvorhersage von Belutschenschafen meldeten. Çelik und Yilmaz51 verwendeten ebenfalls den CART-Algorithmus und berichteten über niedrigere Werte als die vorliegende Studie von R2 = 0,6889, Adj. R2 = 0,6810, r = 0,830 bzw. RMSE = 1,1802. RF wurde aufgrund seiner Merkmale im Vergleich zu vielen anderen ML-Modellen für Forscher auch als wichtige Wahl für die Modellierung komplexer Beziehungen zwischen Variablen angesehen. Ähnlich wie bei den in der vorliegenden Studie berichteten Ergebnissen wurde auch festgestellt, dass zufällige Wälder im Allgemeinen andere Entscheidungsbäume übertreffen, ihre Genauigkeit wurde jedoch als geringer als die von Bäumen mit Gradientenverstärkung angegeben. Berichten zufolge funktionieren Boosting-Algorithmen unter einer Vielzahl von Bedingungen gut52,53. Es ist jedoch wichtig zu erwähnen, dass die Konvergenz von Algorithmen auch in hohem Maße von den Dateneigenschaften abhängt54,55.

In dieser Studie wurden morphometrische Parameter zusammen mit dem Körpergewicht zur Vorhersage des Körpergewichts mit hoher Korrelation verwendet. Es wurde berichtet, dass die größte Variation des Körpergewichts auf die Kombination von Brustumfang, Körperlänge und Körpergröße für die Vorhersage des Körpergewichts zurückzuführen ist56.

XgBoost übertraf den Gradient-Boost-Algorithmus zur Vorhersage von Körpergewichten. Für den XGBoost-Algorithmus wurde festgestellt, dass sowohl die Genauigkeit als auch die Trainingsgeschwindigkeit besser sind. Dies wurde auch von Bentéjac et al.57 veröffentlicht, die XGBoost mit mehreren Gradienten-Boosting-Algorithmen verglichen. Niang et al.58 zeigten außerdem, dass der XGBoost-Algorithmus im Vergleich zu Random Forests einen geringeren Fehlerwert erzielt. XGBoost verwendet eine erweiterte Regularisierung (L1 und L2), was möglicherweise der Grund für die verbesserten Funktionen zur Modellgeneralisierung war36.

Die größte Korrelation wurde für den FS + PCA-Datensatz gefunden, was bedeutet, dass mit dieser Technik eine bessere Vorhersage mit der geringsten Anzahl von Merkmalen getroffen werden kann. Die Unterstützungsvektorregression ergab eine etwas bessere Konvergenz als k-nächste Nachbarn, was auch von Ramyaa et al.59 in ihrer Studie zur Phänotypisierung von Probanden anhand des Körpergewichts festgestellt wurde. Es wurde auch berichtet, dass die KNN-Ergebnisse bei den Extremwerten der unabhängigen Variablen etwas in Richtung des Mittelwerts verzerrt waren, dies hatte jedoch keinen Einfluss auf die Ergebnisse der vorliegenden Studie.

Der FS-Datensatz ergab den höchsten Korrelationskoeffizienten unter Verwendung des multivariaten adaptiven Regressions-Splines-Algorithmus. Auch hier könnte das Vorhandensein einer größeren Anzahl von Merkmalen als bei den anderen beiden Datensätzen dazu beigetragen haben. Es wurden R2-Werte gemeldet, die näher an den in dieser Studie erhaltenen Werten von 0,972 liegen, die mit dem MARS-Algorithmus zur Vorhersage des Mastendgewichts von Bullen ermittelt wurden60. Çelik und Yilmaz51 verwendeten MARS ebenfalls zur Vorhersage des Körpergewichts und berichteten über etwas höhere Werte von R2 von 0,919, RMSE von 0,604 und r von 0,959. Es wurde berichtet, dass der MARS-Algorithmus ein flexibles Modell sei, das die Interaktionseffekte offenlegte und die Restvarianz minimierte61.

Für die Vorhersage des Körpergewichts lieferte der MARS-Algorithmus die besten Vorhersagen basierend auf dem Korrelationskoeffizienten und für die Vorhersage des Zuchtwerts lieferten baumbasierte Algorithmen die besten Ergebnisse. Der FS-Datensatz übertraf in den meisten Fällen die PCA- und PCA+FS-Datensätze, mit Ausnahme genetischer Algorithmen und neuronaler Netze, die sowohl durch Hyperparameteroptimierung als auch durch heuristische Modellierung und KNN trainiert wurden (jedoch nur mit sehr geringem Vorsprung). Dies kann auf eine größere Anzahl von Merkmalen im FS-Datensatz zurückgeführt werden, die dazu beitragen, dass jeweils eine zusätzliche erklärte Varianz innerhalb des Datensatzes gegenüber der vorhergesagten Variablen hinzugefügt wird. Die Bayes'sche Regression übertraf die Ridge-Regression geringfügig und besagte weiterhin, dass die Multikollinearität innerhalb des FS-Datensatzes keine Konvergenzprobleme verursachte, was auch in der Literatur bestätigt wird.

Künstliche Intelligenz ist ein vielversprechender Bereich, der das Potenzial hat, genaue Vorhersagen über verschiedene Aspekte der landwirtschaftlichen Betriebsführung zu treffen und somit eine praktikable Alternative zu herkömmlichen Strategien sein kann. In dieser Studie wurden 12 einsetzbare und wiederverwendbare Modelle zur Vorhersage des Körpergewichts im Alter von 12 Monaten entwickelt. Alle Modelle verfügten über eine hohe Vorhersagefähigkeit, wobei baumbasierte Algorithmen im Allgemeinen andere Techniken bei regressionsbasierten Aufgaben übertrafen. Wenn diese angepasst und in landwirtschaftlichen Betrieben eingesetzt werden, können sie dabei helfen, fundierte Entscheidungen zu treffen. Eine Modernisierung der landwirtschaftlichen Betriebe wäre somit von Vorteil für die Tierproduktion und die landwirtschaftliche Wirtschaft und würde somit zum übergeordneten Ziel der Ernährungssicherheit beitragen.

Um das Körpergewicht vorherzusagen, wurden Daten für 11 Jahre (2011–2021) für die Corriedale-Rasse verwendet und von einer organisierten Schaffarm in Kaschmir gesammelt. Die Gesamtzahl der für die Studie verfügbaren Datenpunkte betrug 37201. Zu den ersten Rohdaten gehörten Tiernummern (Markennummer, Ohrmarke), Geburtsdatum, Geschlecht, Geburtsmantel, Wurfgröße, Entwöhnungsdatum, Elterndaten (Mutternummer, Vaternummer, Mutter). Gewicht, Melkfähigkeit der Muttertiere, Geburtsverlauf), Fellfarbe, Geburtszeitpunkt, Körpergewichte (wöchentliche Körpergewichte bis zur 4. Woche, 14-tägige Gewichte bis zur 6. 14. Woche, monatliche Körpergewichte bis zum 12. Monat), monatliche morphometrische Messungen bis zum Absetzen , Wetterdaten (Tagestemperatur und Luftfeuchtigkeit), Entsorgungsaufzeichnungen, Behandlungsaufzeichnungen. Die Merkmale wurden sowohl heuristisch als auch mithilfe später erläuterter Techniken bestimmt. Die Rohdaten wurden bereinigt und doppelte Zeilen mit zu vielen fehlenden Werten wurden entfernt. Die Datenimputation erfolgte iterativ mithilfe der Bayes'schen Ridge-Regression62. Für den Umgang mit Ausreißern wurde Winsorisierung verwendet und die Daten wurden entsprechend codiert und es wurde auch eine Standardisierung durchgeführt. Dies wurde erreicht, indem der Mittelwert von jedem Merkmal dividiert und durch die Standardabweichung dividiert wurde. Die Daten wurden in Trainings- und Testdaten aufgeteilt und die optimale Zugtestaufteilung wurde heuristisch ermittelt, wobei die Testdaten 10 % und die Trainingsdaten 90 % des Datensatzes ausmachten. Der gesamte Trainingsdatensatz diente wiederum der Validierung und die Validierungsdaten machten 10 Prozent der Trainingsdaten aus.

Um die Anzahl der Eingabevariablen im Datensatz zu verringern und diejenigen auszuwählen, die am meisten zur Varianz beitragen, wurde eine Dimensionsreduktion mithilfe der Hauptkomponentenanalyse (PCA) und der Merkmalsauswahl durchgeführt. PCA ist eine statistische Technik, die korrelierte Merkmale linear in eine Reihe unkorrelierter Merkmale umwandelt. Dies geschieht durch orthogonale Transformation. Die Merkmalsauswahl erfolgte in Python basierend auf der F-Test-Schätzung des Grades der linearen Abhängigkeit zwischen zwei numerischen Variablen: der Eingabe und der Ausgabe. Die Merkmalsauswahl wurde sowohl für die Originaldatensätze als auch nach dem Extrahieren von Merkmalen aus PCA durchgeführt. Die Eingabevariablen waren bei allen in dieser Studie verwendeten ML-Methoden konstant, um die Verzerrung zu beseitigen, die eine ungleiche Anzahl von Merkmalen/Eingabevariablen während des Trainingsprozesses verursachen könnte. Somit wurden drei Datensätze erstellt:

Der Hauptkomponentenanalysedatensatz (PCA), in dem hauptsächlich die PCA-Technik zur Dimensionsreduzierung verwendet wurde

Der Merkmalsauswahldatensatz (FS), in dem die F-Test-Schätzung des Grades der linearen Abhängigkeit zwischen zwei numerischen Variablen zur Dimensionsreduzierung verwendet wurde

Der PCA+FS-Datensatz, in dem beide Techniken verwendet wurden, um eine deutlich reduzierte Anzahl von Funktionen zu erreichen.

Zur Vorhersage des Körpergewichts mithilfe von ANNs wurden auch rein morphometrische Messungen verwendet. Dies stellte den DM-Datensatz dar, der zur Vorhersage des Entwöhnungsgewichts verwendet wurde. Dies geschah, weil morphometrische Messungen im Datensatz nach dem Absetzen sehr selten waren.

Als Etiketten wurden Körpergewichte im Alter von 12 Monaten verwendet. Als Bezeichnung für einen der Algorithmen wurde auch das Entwöhnungsgewicht verwendet.

In dieser Studie wurden insgesamt 11 KI-Algorithmen eingesetzt. Die Vorhersage des Gewichtsparameters erfolgte anhand von Körpermaßen sowie früheren Körpergewichten als Eingabeattribute für künstliche neuronale Netze. Hyperparameter wurden mithilfe von Suchgitter- und Zufallssuchalgorithmen und später auch durch heuristische Optimierung optimiert.

In dieser Studie wurde ein Vergleich der folgenden Algorithmen für maschinelles Lernen durchgeführt:

Diese Technik basiert auf dem Prinzip, dass die Ausgabe „y“ aus einer Wahrscheinlichkeitsverteilung und nicht aus einem einzelnen Wert stammt. Aufgrund der Einbeziehung eines probabilistischen Ansatzes wird erwartet, dass das Modell besser trainiert. Der Prior für den Koeffizienten „w“ wird daher unter Verwendung der sphärischen Gaußschen Funktion abgeleitet und die L2-Regularisierung getestet, was einen effektiven Ansatz für Multikollinearität darstellt[10]. Die Kostenfunktion ist ein Lambda-Term für eine Strafe zur Verkleinerung der Parameter, wodurch die Modellkomplexität verringert wird, um unvoreingenommene Schätzungen zu erhalten. Es wurden die Standardparameter \(1 {e^{-6}}\) für Alpha 1 und Alpha 2 verwendet. Dies sind Hyperparameter für die Form- und Geschwindigkeitsparameter der Verteilung.

Diese beliebte Technik des maschinellen Lernens ist von den Neuronen inspiriert, die in neuronalen Systemen von Tieren vorkommen. Ein neuronales Netzwerk ist daher nur eine Gruppe von Einheiten/Knoten, die zu künstlichen Neuronen miteinander verbunden sind[18]. Diese Verbindung ähnelt einem Neuron. Zahlen werden genau wie Signale in einem echten Gehirn als Signale zwischen den künstlichen Neuronen übertragen und der Ausgang jedes einzelnen wird berechnet, nachdem zur Summe aller Eingänge dieses bestimmten Neurons eine Nichtlinearität hinzugefügt wird. In einem größeren Bild entsteht das Netzwerk von Neuronen, wenn viele solcher Neuronen zu Schichten zusammengefasst werden. Je mehr Neuronen vorhanden sind, desto dichter ist das neuronale Netzwerk ausgebildet. Die Hinzufügung vieler innerer Schichten macht das Netzwerk tief. Die Hyperparameterbereiche für PCA+FS-, PCA- und FS-Datensätze für künstliche neuronale Netze waren Iterationen = 1000, 200, 1000. Lernrate = 0,001, 0,5 für PCA +FS-Datensatz, 0,001, 0,5 für PCA-Datensatz, 0,001, 0,5 für FS Datensatz. Abbrecherquote = 0,01, 0,9 für PCA + FS-Datensatz, 0,01, 0,9 für PCA-Datensatz, 0,01, 0,9 für FS-Datensatz. Die verborgenen Ebenen für den PCA+FS-Datensatz = 1–5, PCA-Datensatz = 1–7 und FS-Datensatz =1–10. Die Neuronen pro Schicht für den PCA+FS-Datensatz = 1300, PCA-Datensatz = 1400 und FS-Datensatz = 1400. Die Stapelgrößen pro Schicht für den PCA+FS-Datensatz = 8, 10, 16, 20, PCA-Datensatz = 8, 10 , 16, 20, 30 und FS-Datensatz =8, 10, 16, 20, 30. Die Aktivierungs- und Optimierungsoptionen für Datensätze waren „tanh“, „sigmoid“, „ReLU“ und „adam“, „rms“ und 'sgd'.

Dieser überwachte Algorithmus für maschinelles Lernen (SVM) ist nützlich für die Lösung von Regressions- (SVR) und Klassifizierungsproblemen (SVM). SVM erstellt eine Hyperebene mit maximalem Rand im transformierten Eingaberaum. Auf diese Weise wird die Lösung optimiert und ein quadratisches Optimierungsproblem wird verwendet, um die Hyperebenen-Lösungsparameter abzuleiten. Die Rastersuchparameter für Support-Vektor-Maschinen mit den Bereichen Param Grid \(\copyright \) gleich 0,1, 1, 100, 10, 1000, Gamma gleich 1, 0,1, 0,01, 0,001, 0,0001 und Kernel gleich 'rbf ', 'Sigmoid', 'linear'. Es wurde eine randomisierte Suche nach den vorgegebenen Hyperparametern durchgeführt, um die besten zu schätzen. Die Hyperparameterbereiche für die Rastersuche bzw. die Zufallssuche waren Bootstrap True und True, False, Max. Tiefe 5, 10, 20, 15, 30, Keine und 4 gleichmäßig verteilte Werte zwischen 5 und 20, maximale Features gleich = „auto“, 'log2' und 'auto', 'log2', 'sqrt', n Schätzer gleich 5–13, 15, 20 und 20 gleichmäßig verteilte Werte zwischen 5 und 25.

Der CART-Algorithmus erstellt einen Entscheidungsbaum. Dieser Entscheidungsbaum arbeitet mit Ginis Verunreinigungsindex und verwendet ihn, um zu einer endgültigen Entscheidung zu gelangen. Analog zu einem tatsächlichen Baum stellt jede Verzweigung oder Gabelung eine Entscheidung dar und die Prädiktorvariable wird in Richtung eines der vielen Verzweigungspunkte aufgeteilt. Und am Ende erreicht der Endknoten die endgültige Zielvariable.

Zufällige Wälder ähneln anderen baumbasierten Algorithmen. Die Theorie nutzt jedoch Ensemble-Lernmethoden, bei denen viele Entscheidungsbäume erstellt werden, um zu einer Lösung zu gelangen, die optimal ist. Daher wird der Durchschnitt der aus allen solchen Bäumen erhaltenen Vorhersagen als endgültige Ausgabe verwendet.

Wieder ein baumbasierter Ensemble-Algorithmus, der viele Entscheidungsbäume mit schwacher Vorhersage nutzt. Somit wird das endgültige Modell stufenweise erstellt. Dies ermöglicht die Optimierung einer beliebigen differenzierbaren Verlustfunktion, wodurch dieser Algorithmus besser ist als viele baumbasierte Algorithmen. Die Hyperparameteroptionen des Gradient-Boost-Algorithmus waren Lernrate = 0,001, 0,01, 0,1, N-Schätzer = 500, 1000, 2000, Teilstichprobe = 0,5, 0,75, 1, maximale Tiefe = 1, 2, 4 und Zufallszustand = 1.

Außerdem ein entscheidungsbaumbasierter Algorithmus, der Gradienten-Boosting-Frameworks nutzt, um zu den optimalsten Lösungen zu gelangen. XGBoost verwendet zusätzliche Randomisierungsparameter, die Bestrafung von Bäumen, die proportionale Schrumpfung von Blattknoten sowie Newton-Boosting. Die Optimierung der Hyperparameter für die XGBoost-Rastersuche wurde als Lernraten = 0,001, 0,01, 0,05, 0,1, maximale Tiefen = 3, 5, 7, 10, 20, minimales untergeordnetes Gewicht = 1, 3, 5, Teilstichprobe = 0,5, 0,7, Colsample angenommen nach Baum = 0,5, 0,7, N Schätzer = 50, 100, 200, 500, 1000 und Ziel = 'reg: quadratischer Fehler.

Die Polnominale Regression geht der Monom-Regression einen Schritt voraus, da hier die Beziehung zwischen unabhängigen und abhängigen Variablen als Polynom n-ten Grades dargestellt wird. Diese Technik ist nützlich für nichtlineare Beziehungen zwischen abhängigen und unabhängigen Variablen. Für die Polynomregression wurden 10 Polynomgrade mit einem Mittelwert von 6 für jeden Algorithmus überprüft. Die Polynomregression wurde mit dem Paket sklearn in Python implementiert. Die besten Parameter für den Algorithmus wurden ebenfalls mithilfe der Hyperparameter-Optimierung abgeleitet.

Ein einfacher und effektiver Algorithmus für maschinelles Lernen, der ein nichtparametrischer Lernklassifikator ist. Es nutzt die Nähe zur Vorhersage von Datenpunkten. Die Annahme besteht darin, dass ähnliche Punkte auf einem Diagramm nahe beieinander liegen würden und daher ein vorhergesagter Wert als Durchschnitt der n Anzahl (k nächste Nachbarn) von Punkten angenommen wird, die ihm ähnlich sind. dass ähnliche Punkte nahe beieinander liegen würden. Für KNN wurde eine Rastersuche im Bereich von 2–11 eingesetzt.

MARS kombiniert mehrere einfache lineare Funktionen, um sie zu aggregieren, indem die am besten passende Kurve für die Daten gebildet wird. Es kombiniert lineare Gleichungen zu einer Gesamtgleichung. Dies ist in Situationen nützlich, in denen eine lineare oder polynomielle Regression nicht funktionieren würde. Der MARS-Algorithmus wurde auch für die K-fache Kreuzvalidierung aller drei Datensätze verwendet. Es wurden 10 Teilungen und 3 Wiederholungen verwendet.

Techniken, die eingeschränkte und uneingeschränkte Optimierungsprobleme lösen, da es sich um heuristische adaptive Suchalgorithmen handelt, die zur größeren Klasse der evolutionären Algorithmen gehören. Inspiriert durch natürliche Selektion und Genetik simulieren genetische Algorithmen das „Überleben des Stärksten“ unter den Individuen jeder Generation, um ein Problem zu lösen. Jede Generation besteht aus einer Population von Individuen, die alle Punkte im Suchraum darstellen.

Für die Modellbewertung wurden vier Bewertungskriterien verwendet. Und da es sich bei der vorliegenden Aufgabe um eine Regression handelte, handelte es sich hierbei um den mittleren quadratischen Fehler (MSE), der in Gl. 1, mittlerer absoluter Fehler (MAE), angegeben in Gl. 2, Bestimmtheitsmaß (R2), dargestellt in Gleichung 3, und Korrelationskoeffizient \(r\), dargestellt in Gleichung. 4.

Dabei entspricht yi dem tatsächlichen Wert für die i-te Beobachtung, xi ist der berechnete Wert für die i-te Beobachtung und n stellt die Gesamtzahl der Beobachtungen dar.

Die im Rahmen der aktuellen Studie analysierten Daten sind nicht öffentlich zugänglich, da die Autoren nicht die Erlaubnis haben, sie öffentlich zu teilen, sind aber auf begründete Anfrage beim entsprechenden Autor erhältlich.

Neethirajan, S. Die Rolle von Sensoren, Big Data und maschinellem Lernen in der modernen Tierhaltung. Sens. Bio-Sens. Res. 29, 100367. https://doi.org/10.1016/j.sbsr.2020.100367 (2020).

Artikel Google Scholar

Hamadani, A. et al. Vieh- und Geflügelrassen von Jammu, Kashmir und Ladakh. Indian J. Anim. Wissenschaft. 92, 409–416. https://doi.org/10.56093/ijans.v92i4.124009 (2022).

Artikel Google Scholar

Hamadani, H., Khan, A. & Banday, M. Kaschmir und Gänserasse. Weltgeflügelwissenschaft. J. 76, 144–153. https://doi.org/10.1080/00439339.2020.1711293 (2020).

Artikel Google Scholar

Hamadani, H. & Khan, AA Automatisierung in der Viehhaltung – Eine technologische Revolution. Int. J. Adv. Res. 3, 1335–1344 (2015).

CAS Google Scholar

Hamadani, H. et al. Morphometrische Charakterisierung lokaler Gänse im Tal von Kaschmir. Indian J. Anim. Wissenschaft. 84, 978–981 (2014).

Google Scholar

Hamadani, A., Ganai, NA, Khan, NN, Shanaz, S. & Ahmad, T. Abschätzung genetischer, erblicher und phänotypischer Trends für Gewicht und Wollmerkmale bei Rambouillet-Schafen. Kleiner Rumin. Res. 177, 133–140. https://doi.org/10.1016/j.smallrumres.2019.06.024 (2019).

Artikel Google Scholar

Hamadani, A. & Ganai, NA Entwicklung eines Mehrzweck-Entscheidungsunterstützungssystems für das wissenschaftliche Management und die Zucht von Schafen. Wissenschaft. Rep. 12, 19360. https://doi.org/10.1038/s41598-022-24091-y (2022).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Hamadani, A., Ganai, NA & Rather, MA Genetische, phänotypische und erbliche Trends für das Körpergewicht bei Kaschmir-Merinoschafen. Kleiner Rumin. Res. 205, 106542. https://doi.org/10.1016/j.smallrumres.2021.106542 (2021).

Artikel Google Scholar

Khan, NN et al. Genetische Bewertung der Wachstumsleistung bei Corriedale-Schafen in J und K, Indien. Kleiner Rumin. Res. 192, 106197. https://doi.org/10.1016/j.smallrumres.2020.106197 (2020).

Artikel Google Scholar

Baba, J., Hamadani, A., Shanaz, S. & Rather, M. Faktoren, die die Wolleigenschaften von Corriedale-Schafen in der gemäßigten Region Jammu und Kaschmir beeinflussen. Indischer J. Kleiner Rumin. (The) 26, 173. https://doi.org/10.5958/0973-9718.2020.00035.5 (2020).

Artikel Google Scholar

Cihan, P., Gökçe, E., Atakisi, O., Kirmzigül, AH & Erdogan HM Vorhersage von Immunglobulin bei Lämmern mit Methoden der künstlichen Intelligenz. Zeitschrift der Fakultät für Veterinärmedizin der Universität Kafkashttps://doi.org/10.9775/kvfd.2020.24642(2021).

Vielmehr haben M. et al. Einfluss nichtgenetischer Faktoren auf die Überlebensfähigkeit und die kumulative Mortalität von Kaschmir-Merinolämmern. Indischer J. Kleiner Rumin. (The) 26, 22. https://doi.org/10.5958/0973-9718.2020.00011.2 (2020).

Artikel Google Scholar

CİHAN, P., GÖKÇE, E. & KALIPSIZ, O. Ein Überblick über Anwendungen des maschinellen Lernens in der Veterinärmedizin. Zeitschrift der Veterinärmedizinischen Fakultät der Kafkas-Universitäthttps://doi.org/10.9775/kvfd.2016.17281(2017).

Karabag, K., Alkan, S. & Mendes, M. Bestimmung von Faktoren, die die Sexualkraft in Eiern von Knal-Rebhühnern (Alectoris Chukar) beeinflussen, durch Klassifizierungsbaummethode (Kafkas Univ. Vet. Fak, Derg, 2009).

Takma, C., Atil, H. & Aksakal, V. Vergleich der Anpassungsfähigkeit multipler linearer Regression und künstlicher neuronaler Modelle an die Milchleistung in der Laktation (Kafkas Univ. Vet. Fak, Derg, 2012).

Hamadani, A. et al. Techniken der künstlichen Intelligenz zur Vorhersage des Körpergewichts bei Schafen. Indian J. Anim. Res.https://doi.org/10.18805/ijar.b-4831 (2022).

Artikel Google Scholar

Hamadani, A. et al. Vergleich von Algorithmen der künstlichen Intelligenz und ihrer Rangfolge für die Vorhersage genetischer Verdienste bei Schafen. Wissenschaft. Rep. 12, 18726. https://doi.org/10.1038/s41598-022-23499-w (2022).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Hamadani, A., Ganai, NA & Bashir, J. Künstliche neuronale Netze für Data Mining in den Tierwissenschaften. Stier. Natl. Res. Cent. 47, 68. https://doi.org/10.1186/s42269-023-01042-9 (2023).

Huma, ZE & Iqbal, F. Vorhersage des Körpergewichts von Balochi-Schafen mithilfe eines maschinellen Lernansatzes. Türke. J. Tierarzt. Wissenschaft. 43, 500–506. https://doi.org/10.3906/vet-1812-23 (2019).

Artikel Google Scholar

Arowolo, MO, Aigbogun, HE, Michael, PE, Adebiyi, MO & Tyagi, AK Ein Vorhersagemodell zur Klassifizierung von Darmkrebs mithilfe der Hauptkomponentenanalyse. In Data Science for Genomics, 205–216, https://doi.org/10.1016/b978-0-323-98352-5.00004-5 (Elsevier, 2023).

Arowolo, MO et al. Entwicklung eines Chi-Quadrat-Ansatzes zur Klassifizierung der Vorhersage ischämischer Schlaganfälle. In Information Systems and Management Science, 268–279, (Springer International Publishing, 2022). https://doi.org/10.1007/978-3-031-13150-9_23

Abdulsalam, SO, Arowolo, MO & Ruth, O. Modell zur Vorhersage von Schlaganfallerkrankungen unter Verwendung von ANOVA mit Klassifizierungsalgorithmen. In Artificial Intelligence in Medical Virology, 117–134, (Springer Nature Singapore, 2023). https://doi.org/10.1007/978-981-99-0369-6_8

Cihan, P., Gökçe, E., Atakişi, O., Kirmizigül, AH & Erdoğan, HM Vorhersage der Immunglobulinbildung bei Lämmern mit Methoden der künstlichen Intelligenz. Zeitschrift der Veterinärmedizinischen Fakultät der Kafkas-Universität (2021).

Arowolo, MO, Adebiyi, M., Adebiyi, A. & Okesola, O. Pca-Modell für die rna-seq-Malaria-Vektordatenklassifizierung unter Verwendung von Knn und Entscheidungsbaumalgorithmus. Im Jahr 2020 International Conference in Mathematics, Computer Engineering and Computer Science (ICMCECS), 1–8, https://doi.org/10.1109/ICMCECS47690.2020.240881(2020).

Arowolo, MO, Adebiyi, MO & Adebiyi, AA Ein effizienter PCA-Ensemble-Lernansatz zur Vorhersage der Klassifizierung von RNA-seq-Malaria-Vektor-Genexpressionsdaten. Int. J. Eng. Res. Technol. 13, 163. https://doi.org/10.37624/ijert/13.1.2020.163-169 (2020).

Artikel Google Scholar

Arowolo, MO, Awotunde, JB, Ayegba, P. & Sulyman, SOH Relevante Genselektion unter Verwendung des ANOVA-Ansatzes zur Ameisenkolonieoptimierung für die Klassifizierung von Malaria-Vektordaten. Int. J. Modell. Identif. Kontrolle 41, 12. https://doi.org/10.1504/ijmic.2022.127093 (2022).

Artikel Google Scholar

Anderson, CA Temperatur und Aggression: Auswirkungen auf vierteljährliche, jährliche und städtische Raten gewalttätiger und gewaltfreier Kriminalität. J. Persönlich. Soc. Psychol. 52, 1161–1173. https://doi.org/10.1037/0022-3514.52.6.1161 (1987).

Artikel CAS Google Scholar

Chambers, R., Kokic, P., Smith, P. & Cruddas, M. Winsorization zur Identifizierung und Behandlung von Ausreißern in Unternehmensumfragen. Proceedings of the Second International Conference on Establishment Surveys 717–726 (2000).

Hamadani, A. et al. Entfernung von Ausreißern in Datensätzen von Schaffarmen mittels Winsorisierung. Bhartiya Krishi Anusandhan Patrikahttps://doi.org/10.18805/bkap397 (2022).

Artikel Google Scholar

Swatland, HJ Struktur und Entwicklung von Fleischtieren und Geflügel (CRC Press, 1994).

Abualigah, LM, Khader, AT & Hanandeh, ES Eine neue Methode zur Merkmalsauswahl zur Verbesserung der Dokumentenclusterung mithilfe eines Partikelschwarmoptimierungsalgorithmus. J. Comput. Wissenschaft. 25, 456–466. https://doi.org/10.1016/j.jocs.2017.07.018 (2018).

Artikel Google Scholar

Sharma, M. Verbesserte Schätzung der Autismus-Spektrum-Störung mithilfe der CFS-Teilmenge mit der Technik der gierigen schrittweisen Merkmalsauswahl. Int. J. Inf. Technol. 14, 1251–1261 (2022).

Google Scholar

Sugiarto, T. Anwendung der Hauptkomponentenanalyse (PCA) zur Reduzierung der Multikollinearität der Wechselkurswährung einiger Länder in Asien, Zeitraum 2004–2014. Int. J. Educ. Methodol. 3, 75–83. https://doi.org/10.12973/ijem.3.2.75 (2017).

Artikel Google Scholar

Marco, PD & Nóbrega, CC Bewertung von Kollinearitätseffekten auf Artenverteilungsmodelle: Ein Ansatz, der auf der Simulation virtueller Arten basiert. PLUS EINS 13, e0202403. https://doi.org/10.1371/journal.pone.0202403 (2018).

Artikel CAS PubMed Google Scholar

Liang, M. et al. Ein Stacking-Ensemble-Lernframework für die Genomvorhersage. https://doi.org/10.21203/rs.3.rs-52592/v1 (2020)

Kumar, S., Dahiya, S., Malik, Z., Patil, C. & Magotra, A. Genetische Analyse von Leistungsmerkmalen bei Harnali-Schafen. Indian J. Anim. Res. 52, 643–648 (2018).

Google Scholar

Adebiyi, MO, Arowolo, MO & Olugbara, O. Ein genetischer Algorithmus zur Vorhersage der Klassifizierung von RNA-seq-Malaria-Vektor-Genexpressionsdaten mithilfe von SVM-Kerneln. Stier. Elektr. Ing. Informieren. 10, 1071–1079. https://doi.org/10.11591/eei.v10i2.2769 (2021).

Artikel Google Scholar

Valsalan, J., Sadan, T. & Venketachalapathy, T. Multivariate Hauptkomponentenanalyse zur Bewertung der Wachstumsleistungen bei Malabari-Ziegen in Indien. Trop. Anim. Gesundheitsprod. 52, 2451–2460. https://doi.org/10.1007/s11250-020-02268-9 (2020).

Artikel PubMed Google Scholar

Shahinfar, S. et al. Vorhersage von Zuchtwerten für Milchvieh mithilfe künstlicher neuronaler Netze und Neuro-Fuzzy-Systeme. Berechnen. Mathematik. Methoden Med. 2012 (2012).

Khorshidi-Jalali, M., Mohammadabadi, M., Esmailizadeh, AK, Barazandeh, A. & Babenko, O. Vergleich von künstlichen neuronalen Netzwerk- und Regressionsmodellen zur Vorhersage des Körpergewichts bei Raini-Kaschmirziegen. Iran. J. Appl. Anim. Wissenschaft. 9, 453–461 (2019).

Google Scholar

Han, J., Gondro, C., Reid, K. & Steibel, JP Heuristische Hyperparameteroptimierung von Deep-Learning-Modellen für die Genomvorhersage. G3 Gene Genome Genet. 11, 32. https://doi.org/10.1093/g3journal/jkab032 (2021).

Artikel Google Scholar

Wang, J., Chen, Q. & Chen, Y. Rbf-Kernel-basierte Support-Vektor-Maschine mit universeller Näherung und ihre Anwendung. In Advances in Neural Networks – ISNN 2004 (Hrsg. Yin, F.-L. et al.) (Springer Berlin Heidelberg, Berlin, Heidelberg, 2004).

Google Scholar

Ben-Hur, A., Ong, CS, Sonnenburg, S., Schölkopf, B. & Rätsch, G. Support Vector Machines und Kernels für Computational Biology. PLoS Comput. Biol. 4, e1000173. https://doi.org/10.1371/journal.pcbi.1000173 (2008).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Long, N., Gianola, D., Rosa, GJM & Weigel, KA Anwendung der Support-Vektor-Regression zur genomgestützten Vorhersage quantitativer Merkmale. Theor. Appl. Genet. 123, 1065–1074. https://doi.org/10.1007/s00122-011-1648-y (2011).

Artikel PubMed Google Scholar

Alonso, J., Villa, A. & Bahamonde, A. Verbesserte Schätzung der Gewichtsverläufe von Rindern mithilfe der Support-Vector-Machine-Klassifizierung. Berechnen. Elektron. Landwirtschaft. 110, 36–41. https://doi.org/10.1016/j.compag.2014.10.001 (2015).

Artikel Google Scholar

Bergstra, J. & Bengio, Y. Zufällige Suche zur Hyperparameteroptimierung. J. Mach. Lernen. Res. 13, 281–305 (2012).

MathSciNet MATH Google Scholar

Probst, P., Wright, MN & Boulesteix, A.-L. Hyperparameter und Optimierungsstrategien für Random Forest. DRÄHTE Daten Min. Wissen. Entdeckung. 9, e1301. https://doi.org/10.1002/widm.1301 (2019).

Artikel Google Scholar

Kumar, N., Sharma, M., Singh, VP, Madan, C. & Mehandia, S. Eine empirische Studie über handgefertigte und dichte Merkmalsextraktionstechniken für die Klassifizierung von Lungen- und Dickdarmkrebs aus histopathologischen Bildern. Biomed. Signalprozess. Kontrolle 75, 103596 (2022).

Artikel Google Scholar

Sharma, M. & Kumar, N. Verbesserte Todesprognose bei hepatozellulärem Karzinom mithilfe des Ensemble-Learning-Ansatzes. J. Ambient Intell. Humaniz. Berechnen. 13, 5763–5777 (2022).

Artikel Google Scholar

Jahan, M., Traiq, M., Kakar, M., Eyduran, E. & Waheed, A. Vorhersage des Körpergewichts anhand der Körper- und Hodenmerkmale männlicher Balochi-Schafe in Pakistan mithilfe verschiedener statistischer Analysen. J. Anim. Pflanzenwissenschaft. 23, 14–19 (2012).

Google Scholar

Celik, S. et al. Vorhersage des Körpergewichts türkischer Tazi-Hunde mithilfe von Data-Mining-Techniken: Klassifizierungs- und Regressionsbaum (Cart) und multivariate adaptive Regressionssplines (Mars). Pak. J. Zool. 50, 575–583 (2018).

Artikel Google Scholar

Sharma, M. et al. Bewertung von Feinstaub für eine Hafenstadt auf der östlichen Halbinsel Indiens mithilfe eines Gradientenverstärkungsmodells für maschinelles Lernen. Atmosphäre (Basel) 13, 743 (2022).

Artikel ADS CAS Google Scholar

Sharma, M. Gebärmutterhalskrebsprognose mithilfe eines genetischen Algorithmus und eines adaptiven Boosting-Ansatzes. Gesundheitstechnologie. (Berl.) 9, 877–886 (2019).

Artikel Google Scholar

Piryonesi, SM & El-Diraby, TE Untersuchen Sie mithilfe von maschinellem Lernen den Einfluss der Art des Leistungsindikators auf die Modellierung der flexiblen Straßenbelagsverschlechterung. J. Infrastruktur. Syst. 27, 04021005. https://doi.org/10.1061/(asce)is.1943-555x.0000602 (2021).

Artikel Google Scholar

Piryonesi, SM & El-Diraby, TE Rolle der Datenanalyse im Infrastruktur-Asset-Management: Überwindung von Datengrößen- und Qualitätsproblemen. J. Transp. Ing. Teil B 146, 04020022. https://doi.org/10.1061/jpeodx.0000175 (2020).

Artikel Google Scholar

Topai, M. & Macit, M. Vorhersage des Körpergewichts anhand von Körpermessungen bei Morkaraman-Schafen. J. Appl. Anim. Res. 25, 97–100 (2004).

Artikel Google Scholar

Bentéjac, C., Csörgő, A. & Martínez-Muñoz, G. Eine vergleichende Analyse von Gradienten-Boosting-Algorithmen. Artif. Intel. Rev. 54, 1937–1967. https://doi.org/10.1007/s10462-020-09896-5 (2020).

Artikel Google Scholar

Niang, M. et al. Vergleich von zufälligen Wäldern und Fingerabdrücken mit extremer Gradientenverstärkung zur Verbesserung eines WLAN-Lokalisierungssystems für Innenräume. Im Jahr 2021 International Mobile, Intelligent, and Ubiquitous Computing Conference (MIUCC), https://doi.org/10.1109/miucc52538.2021.9447676(IEEE, 2021).

Ramyaa, R., Hosseini, O., Krishnan, GP & Krishnan, S. Phänotypisierung von Frauen basierend auf Makronährstoffen in der Nahrung, körperlicher Aktivität und Körpergewicht mithilfe von maschinellen Lerntools. Nährstoffe 11, 1681. https://doi.org/10.3390/nu11071681 (2019).

Artikel PubMed PubMed Central Google Scholar

Aytekin, İ., Eyduran, E., Karadas, K., Akşahan, R. & Keskin, İ. Vorhersage des endgültigen Mastlebendgewichts anhand einiger Körpermaße und der Mastdauer bei jungen Bullen gemischter und exotischer Rassen mithilfe des MARS-Data-Mining-Algorithmus. Pak. J. Zool.https://doi.org/10.17582/journal.pjz/2018.50.1.189.195(2018).

Eyduran, E. et al. Vergleich der Vorhersagefähigkeiten mehrerer Data-Mining-Algorithmen und multipler linearer Regression bei der Vorhersage des Körpergewichts anhand von Körpermaßen bei der einheimischen Rübenziege Pakistans. Pak. J. Zool.https://doi.org/10.17582/journal.pjz/2017.49.1.273.282(2017).

Tipping, M. Sparse bayesianisches Lernen und Relevanzvektormaschine. J. Mach. Lernen. Res. 1, 211–244. https://doi.org/10.1162/15324430152748236 (2001).

Artikel MathSciNet MATH Google Scholar

Pedregosa, F. et al. Scikit-learn: Maschinelles Lernen in Python. J. Mach. Lernen. Res. 12, 2825–2830 (2011).

MathSciNet MATH Google Scholar

Schmidhuber, J. Deep Learning in neuronalen Netzen: Ein Überblick. Neuronales Netz. 61, 85–117 (2015).

Artikel PubMed Google Scholar

Cortes, C. & Vapnik, V. Support-Vektor-Netzwerke. Mach. Lernen. 20, 273–297 (1995).

Artikel MATH Google Scholar

Breiman, L., Friedman, J., Olshen, R. & Stone, C. Klassifizierungs- und Regressionsbäume (die Wadsworth-Statistik/Wahrscheinlichkeitsreihe) 1–358 (Chapman und Hall, New York, NY, 1984).

Ho, TK Zufällige Entscheidungswälder. In Proceedings of 3rd International Conference on Document Analysis and Recognition, vol. 1, 278–282 (IEEE, 1995).

Chen, T. & Guestrin, C. Xgboost: Ein skalierbares Baum-Boosting-System. In Proceedings of the 22nd acm sigkdd International Conference on Knowledge Discovery and Data Mining, 785–794 (2016).

Maulud, D. & Abdulazeez, AM Ein Überblick über die umfassende lineare Regression im maschinellen Lernen. J. Appl. Wissenschaft. Technol. Trends 1, 140–147 (2020).

Artikel Google Scholar

Altman, NS Eine Einführung in den Kernel und die nichtparametrische Regression des nächsten Nachbarn. Bin. Statistiker 46, 175–185 (1992).

MathSciNet Google Scholar

Friedman, JH Multivariate adaptive Regressionssplines. Ann. Stat. 19, 1–67 (1991).

MathSciNet MATH Google Scholar

Yang, Z. & Yang, Z. Comprehensive Biomedical Physics (2004).

Referenzen herunterladen

National Institute of Technology, Srinagar, Indien

Ambreen Hamadani

Sher-e-Kashmir Universität für Agrarwissenschaften und Technologie von Kaschmir, Kaschmir, Indien

Nazir Ahmad Ganai

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

NAG und AH konzipierten das/die Experiment(e), AH führte das/die Experiment(e) durch und analysierte die Ergebnisse. Alle Autoren haben das Manuskript überprüft.

Korrespondenz mit Ambreen Hamadani.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative-Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Hamadani, A., Ganai, NA Vergleich und Ranking von Algorithmen für künstliche Intelligenz zur Gewichtsvorhersage bei Schafen. Sci Rep 13, 13242 (2023). https://doi.org/10.1038/s41598-023-40528-4

Zitat herunterladen

Eingegangen: 02. März 2023

Angenommen: 11. August 2023

Veröffentlicht: 15. August 2023

DOI: https://doi.org/10.1038/s41598-023-40528-4

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.