banner

Blog

Aug 28, 2023

Un ponderato

Rapporti scientifici volume 13, numero articolo: 14061 (2023) Citare questo articolo

1507 accessi

1 Altmetrico

Dettagli sulle metriche

Nell'odierna cultura digitale basata sui dati, esiste una domanda critica di soluzioni ottimizzate che riducano sostanzialmente le spese operative tentando al tempo stesso di aumentare la produttività. La quantità di memoria e il tempo di elaborazione che possono essere utilizzati per elaborare enormi volumi di dati sono soggetti a una serie di limitazioni. Ciò sarebbe senza dubbio più problematico se un set di dati contenesse informazioni ridondanti e poco interessanti. Ad esempio, molti set di dati contengono una serie di caratteristiche non informative che principalmente ingannano un determinato algoritmo di classificazione. Per affrontare questo problema, i ricercatori hanno sviluppato una varietà di tecniche di selezione delle caratteristiche (FS) che mirano a eliminare le informazioni non necessarie dai set di dati grezzi prima di metterli di fronte a un algoritmo di apprendimento automatico (ML). Gli algoritmi di ottimizzazione metaeuristici sono spesso una scelta solida per risolvere problemi NP-hard come FS. In questo studio presentiamo una tecnica wrapper FS basata sull'algoritmo Sparrow Search (SSA), un tipo di meta-euristica. SSA è un metodo di swarm intelligence (SI) che si distingue per la sua rapida convergenza e la migliore stabilità. L'SSA presenta alcuni inconvenienti, come una minore diversità dello sciame e una debole capacità di esplorazione nelle iterazioni successive, come la maggior parte degli algoritmi SI. Quindi, utilizzando dieci mappe caotiche, proviamo a migliorare la SSA in tre modi: (i) la generazione iniziale dello sciame; (ii) la sostituzione di due variabili casuali in SSA; e (iii) bloccare i passeri che attraversano il raggio di ricerca. Di conseguenza, otteniamo CSSA, una forma caotica di SSA. Confronti approfonditi mostrano che CSSA è superiore in termini di diversità dello sciame e velocità di convergenza nel risolvere varie funzioni rappresentative del set di benchmark del Congress on Evolutionary Computation (CEC) dell'Institute of Electrical and Electronics Engineers (IEEE). Inoltre, l'analisi sperimentale di CSSA su diciotto set di dati ML interdisciplinari e multiscala provenienti dal repository di dati dell'Università della California Irvine (UCI), nonché tre set di dati di microarray ad alta dimensione, dimostra che CSSA supera dodici algoritmi all'avanguardia in un compito di classificazione basato sulla disciplina FS. Infine, un'analisi statistica post-hoc con livello di significatività del 5% basata sul test dei ranghi con segno di Wilcoxon, sul test dei ranghi di Friedman e sul test di Nemenyi conferma la significatività del CSSA in termini di idoneità complessiva, accuratezza della classificazione, dimensione delle caratteristiche selezionate, tempo di calcolo, traccia di convergenza e stabilità.

Il ventunesimo secolo è diventato l’era dei dati, con l’analisi e l’utilizzo dei dati visibili ovunque in tutti gli aspetti della vita, e questi dati hanno spesso un carattere altamente dimensionale1,2,3,4,5. Tuttavia, è inevitabile che questi dati contengano un numero sostanziale di caratteristiche ridondanti e irrilevanti, aumentando il sovraccarico computazionale e il rischio di overfitting quando gestiti dai tradizionali algoritmi di machine learning (ML)6,7,8. Di conseguenza, per utilizzare meglio i dati, è necessario sviluppare procedure efficienti, come la selezione delle caratteristiche (FS), per gestire le caratteristiche prive di valore9,10,11. Wrapper, filtri e tecniche FS integrate vengono comunemente utilizzati per differenziarli in base alla loro valutazione per sottoinsiemi di funzionalità12. Gli approcci basati su wrapper si basano su algoritmi ML predefiniti per ottenere una maggiore precisione di classificazione, ma sono molto costosi da calcolare perché gli algoritmi ML devono essere eseguiti numerose volte13. Al contrario, durante la valutazione dei sottoinsiemi di funzionalità, gli approcci basati su filtri non utilizzano alcun algoritmo ML, il che riduce i costi di calcolo ma può ridurre l’accuratezza della classificazione14. Le tecniche integrate incorporano il FS nell'apprendimento del modello, tenendo conto dell'influenza del modello algoritmico e riducendo al tempo stesso il peso computazionale; tuttavia, questi metodi hanno una scarsa capacità di generalizzazione e una significativa complessità computazionale15.

N/2\) indicates that scroungers need to fly elsewhere to get food; otherwise, scroungers get food form around producers./p>f({\mathbf{g}}_{best}^{t})\) indicates that the sparrow is at risk of predation and needs to change its location according to the current best individual, whereas when \(f({\textbf{x}}_i^{t})=f({\mathbf{g}}_{best}^{t})\), a sparrow needs to strategically move closer to other safe individuals to improve its safety index./p>

CONDIVIDERE