Ansambļa metodes - pārskats, kategorijas, galvenie veidi

Ansambļa metodes ir metodes, kuru mērķis ir uzlabot modeļu rezultātu precizitāti, apvienojot vairākus modeļus, nevis izmantojot vienu modeli. Kombinētie modeļi ievērojami palielina rezultātu precizitāti. Tas ir veicinājis ansambļa metožu popularitāti mašīnmācībā.

Ātrais kopsavilkums

Ansambļa metožu mērķis ir uzlabot modeļu paredzamību, apvienojot vairākus modeļus, lai iegūtu vienu ļoti uzticamu modeli.
Populārākās ansambļa metodes ir palielināšana, iesaiņošana un sakraušana.
Ansambļa metodes ir ideāli piemērotas regresijai un klasifikācijai, kur tās samazina neobjektivitāti un dispersiju, lai palielinātu modeļu precizitāti.

Ansambļa metožu kategorijas

Ansambļa metodes iedala divās plašās kategorijās, t.i., secīgas ansambļa tehnikas un paralēlas ansambļa tehnikas. Secīgas ansambļa tehnikas ģenerēt bāzes izglītojamos secībā, piemēram, Adaptive Boosting (AdaBoost). Secīga bāzes izglītojamo paaudze veicina atkarību starp bāzes izglītojamajiem. Pēc tam modeļa veiktspēja tiek uzlabota, piešķirot lielāku svaru iepriekš nepareizi pārstāvētiem izglītojamajiem.

In paralēlu ansambļu paņēmieni, bāzes izglītojamie tiek ģenerēti paralēlā formātā, piemēram, izlases mežs Nejaušs mežs Nejaušs mežs ir paņēmiens, ko izmanto, lai modelētu prognozes un uzvedības analīzi, un tas ir veidots uz lēmumu kokiem. Nejaušā mežā ir daudz lēmumu koku. Paralēlās metodēs tiek izmantota paralēlā bāzes izglītojamo paaudze, lai veicinātu neatkarību starp bāzes izglītojamajiem. Bāzes izglītojamo neatkarība ievērojami samazina kļūdu vidējo rādītāju piemērošanas dēļ.

Lielākā daļa ansambļu paņēmienu pamatmācībās izmanto vienu algoritmu, kā rezultātā visi bāzes izglītojamie iegūst viendabīgumu. Homogēni bāzes izglītojamie attiecas uz viena tipa bāzes izglītojamajiem ar līdzīgām īpašībām. Citas metodes izmanto neviendabīgus bāzes izglītojamos, radot neviendabīgus ansambļus. Heterogēni bāzes izglītojamie ir dažāda veida izglītojamie.

Ansambļa metožu galvenie veidi

1. Maisīšana

Bagings, saīsne bootstrap agregācijas forma, galvenokārt tiek izmantota klasifikācijā un regresijas regresijas analīzē Regresijas analīze ir statistikas metožu kopums, ko izmanto, lai novērtētu attiecības starp atkarīgo mainīgo un vienu vai vairākiem neatkarīgiem mainīgajiem. To var izmantot, lai novērtētu mainīgo lielumu attiecības un modelētu turpmākās attiecības starp tiem. . Tas palielina modeļu precizitāti, izmantojot lēmumu kokus, kas lielā mērā samazina dispersiju. Dispersijas samazināšana palielina precizitāti, tādējādi novēršot pārmērīgu uzstādīšanu, kas ir izaicinājums daudziem prognozējošiem modeļiem.

Soma tiek klasificēta divos veidos, t.i., zābaku siksna un apvienošana. Bootstrapping ir paraugu ņemšanas paņēmiens, kurā paraugi tiek iegūti no visas populācijas (kopas), izmantojot aizstāšanas procedūru. Paraugu ņemšana ar aizstāšanas metodi ļauj atlases procedūru padarīt nejaušinātu. Lai pabeigtu procedūru, paraugiem tiek palaists pamata mācību algoritms.

Apkopošana maisā tiek darīts, lai iekļautu visus iespējamos prognozes rezultātus un nejaušinātu rezultātu. Bez apkopošanas prognozes nebūs precīzas, jo visi rezultāti netiek ņemti vērā. Tāpēc apkopošana ir balstīta uz varbūtības sāknēšanas procedūrām vai uz visiem prognozējošo modeļu rezultātiem.

Maisu soma ir izdevīga, jo vājās bāzes izglītojamie tiek apvienoti, veidojot vienu spēcīgu izglītojamo, kas ir stabilāks nekā vieni. Tas arī novērš jebkādas dispersijas, tādējādi samazinot modeļu pārspīlēšanu. Viens maisiņu ierobežojums ir tas, ka tas ir skaitļošanas ziņā dārgs. Tādējādi tas var izraisīt lielāku tendenciozitāti modeļos, ja tiek ignorēta pareiza maisiņu iesūtīšanas procedūra.

2. Palielināšana

Palielināšana ir ansambļa paņēmiens, kas mācās no iepriekšējām pareģotāju kļūdām, lai nākotnē labāk prognozētu. Tehnika apvieno vairākus vājas bāzes izglītojamos, veidojot vienu spēcīgu izglītojamo, tādējādi ievērojami uzlabojot modeļu paredzamību. Paaugstināšana darbojas, sakārtojot vājus izglītojamos secībā, lai vāji mācītos no nākamā apmācāmā secībā, lai izveidotu labākus prognozēšanas modeļus.

Paaugstināšanai ir dažādas formas, tostarp gradienta palielināšana, Adaptīvā pastiprināšana (AdaBoost) un XGBoost (Extreme Gradient Boosting). AdaBoost izmanto vājus izglītojamos, kas ir lēmumu koku formā, kas galvenokārt ietver vienu sadalījumu, ko tautā sauc par lēmumu celmiem. AdaBoost galvenais lēmuma celma sastāv no novērojumiem ar līdzīgu svaru.

Gradienta palielināšana Gradienta palielināšana Gradienta palielināšana ir paņēmiens, ko izmanto, lai izveidotu modeļus prognozēšanai. Tehniku galvenokārt izmanto regresijas un klasifikācijas procedūrās. ansamblim secīgi pievieno prediktorus, kur iepriekšējie prediktori izlabo savus pēctečus, tādējādi palielinot modeļa precizitāti. Jauni prognozētāji ir piemēroti, lai novērstu iepriekšējo prognozētāju kļūdu ietekmi. Nolaišanās gradients palīdz gradienta pastiprinātājam identificēt problēmas izglītojamo prognozēs un attiecīgi tām pretoties.

XGBoost izmanto lēmumu kokus ar paaugstinātu gradientu, nodrošinot uzlabotu ātrumu un veiktspēju. Tas lielā mērā paļaujas uz skaitļošanas ātrumu un mērķa modeļa veiktspēju. Modeļa apmācībai jānotiek pēc kārtas, tādējādi padarot lēnām pakāpeniski palielinātu mašīnu ieviešanu.

3. Kraušana

Kraušana, cita ansambļa metode, bieži tiek dēvēta par sakrautu vispārinājumu. Šī metode darbojas, ļaujot apmācības algoritmam apkopot vairākas citas līdzīgas mācību algoritmu prognozes. Stacking ir veiksmīgi ieviests regresijā, blīvuma novērtēšanā, tālmācībā un klasifikācijās. To var arī izmantot, lai izmērītu kļūdu līmeni, kas saistīts ar maisu ievietošanu.

Dispersijas samazināšana

Ansambļa metodes ir ideāli piemērotas, lai samazinātu modeļu dispersiju, tādējādi palielinot pareģojumu precizitāti. Dispersija tiek izslēgta, ja tiek apvienoti vairāki modeļi, veidojot vienu prognozi, kas tiek izvēlēta no visām pārējām iespējamām kombinēto modeļu prognozēm. Modeļu kopums ir dažādu modeļu apvienošana, lai nodrošinātu, ka iegūtā prognoze ir vislabākā iespējamā, pamatojoties uz visu pareģojumu apsvēršanu.

Papildu resursi

Finanses ir oficiālais globālā sertificētā banku un kredītu analītiķu (CBCA) ™ CBCA ™ sertifikāta nodrošinātājs. Sertificētā banku un kredītu analītiķu (CBCA) ™ akreditācija ir globāls kredītanalītiķu standarts, kas aptver finanses, grāmatvedību, kredīta analīzi, naudas plūsmas analīzi. , derību modelēšana, aizdevuma atmaksa un citas darbības. sertifikācijas programma, kas izstrādāta, lai palīdzētu ikvienam kļūt par pasaules klases finanšu analītiķi. Lai turpinātu virzīties uz priekšu, noderēs tālāk norādītie papildu finanšu resursi:

Elastīgais tīkls Elastīgais tīkls Elastīgais tīkls lineāri izmanto gan laso, gan kores tehnikas sodus, lai regulētu regresijas modeļus. Tehnika apvieno gan laso, gan
Overfitting Overfitting Overfitting ir statistikā lietots termins, kas attiecas uz modelēšanas kļūdu, kas rodas, ja funkcija pārāk cieši atbilst noteiktam datu kopumam
Mērogojamība Mērogojamība Mērogojamība var samazināties gan finanšu, gan uzņēmējdarbības stratēģijas kontekstā. Abos gadījumos tas nozīmē uzņēmuma spēju izturēt spiedienu
Spoofing Spoofing Spoofing ir traucējoša algoritmiska tirdzniecības prakse, kas ietver nākotnes līgumu pirkšanas vai pārdošanas piedāvājumu izdarīšanu un cenu vai piedāvājumu atcelšanu pirms darījuma izpildes. Šīs prakses mērķis ir radīt nepatiesu priekšstatu par pieprasījumu vai viltus pesimismu tirgū.