Bagošana (Bootstrap apkopošana) - pārskats, kā tas darbojas, priekšrocības

Ansambļa mašīnmācīšanos galvenokārt var iedalīt maisos un palielināšanā. Maisīšanas tehnika ir noderīga gan regresijai, gan statistiskai klasifikācijai. Maisīšana tiek izmantota ar lēmumu kokiem, kur tas ievērojami paaugstina modeļu stabilitāti, samazinot dispersiju un uzlabojot precizitāti, kas novērš pārmērīgas uzstādīšanas problēmu.

Maisīšana

1. attēls. Bagāžas (sāknēšanas siksnas apvienošana) plūsma. Avots

Komplektā mašīnmācīšanās ir saistīta ar vairākiem vājiem modeļiem, apkopojot prognozes, lai izvēlētos labāko prognozi. Vāji modeļi specializējas atsevišķās iezīmju telpas sadaļās, kas ļauj katram modelim iegūt sviras sviras prognozes, lai sasniegtu visaugstāko mērķi.

Ātri Summary

  • Maisīšana un palielināšana ir divas galvenās ansambļa mašīnmācīšanās metodes.
  • Maisīšana ir ansambļa metode, kuru var izmantot regresijā un klasifikācijā.
  • Tas ir arī pazīstams kā bootstrap apkopojums, kas veido divas maisu klasifikācijas.

Kas ir Bootstrapping?

Maisu veido divas daļas: salikšana un zābaku siksna. Bootstrapping ir paraugu ņemšanas metode, kurā paraugs tiek izvēlēts no kopas, izmantojot aizstāšanas metodi. Pēc tam atlasītajiem paraugiem tiek palaists mācību algoritms.

Bootstrapping tehnikā tiek izmantota paraugu ņemšana ar aizstājējiem, lai atlases procedūra būtu pilnīgi nejauša. Ja paraugs tiek atlasīts bez aizstāšanas, turpmākie mainīgo lielumu atlases vienmēr ir atkarīgas no iepriekšējām atlasēm, tādējādi kritērijus padarot nejaušus.

Kas ir apkopošana?

Modeļa prognozes tiek apkopotas, lai tās apvienotu galīgajā prognozē, lai ņemtu vērā visus iespējamos rezultātus. Apkopošanu var veikt, pamatojoties uz kopējo rezultātu skaitu vai prognožu varbūtību, kas izriet no katra procedūras modeļa sāknēšanas.

Kas ir ansambļa metode?

Gan soma, gan pastiprināšana veido visizcilākās ansambļa tehnikas. Ansambļa metode ir mašīnmācīšanās platforma, kas palīdz vairākiem modeļiem apmācībā, izmantojot to pašu mācību algoritmu. Ansambļa metode ir dalībnieks lielākā daudzklasifikatoru grupā.

Daudzklasifikatori ir vairāku izglītojamo grupa, kurā darbojas tūkstošiem cilvēku un kuru kopīgais mērķis var sakausēt un atrisināt kopēju problēmu. Vēl viena daudzklasifikatoru kategorija ir hibrīdmetodes. Hibrīdās metodes izmanto izglītojamo kopumu, bet atšķirībā no daudzklasifikatoriem viņi var izmantot atšķirīgas mācību metodes.

Mācīšanās saskaras ar vairākām problēmām, piemēram, kļūdām, kuras galvenokārt rodas aizspriedumu, trokšņa un dispersijas dēļ. Mašīnmācīšanās precizitāti un stabilitāti garantē tādas ansambļa metodes kā maisiņu ievietošana un palielināšana. Vairāku klasifikatoru kombinācijas samazina dispersiju, it īpaši, ja klasifikatori ir nestabili, un tie ir svarīgi, lai sniegtu ticamākus rezultātus nekā viens klasifikators.

Vai nu maisu, vai palielināšanas piemērošanai vispirms jāizvēlas bāzes izglītojamo algoritms. Piemēram, ja kāds izvēlas klasifikācijas koku, tad palielināšana un iesaiņošana būtu koku kopa, kuras lielums ir vienāds ar lietotāja vēlmēm.

Maisīšanas priekšrocības un trūkumi

Izlases mežs Nejaušs mežs Izlases mežs ir metode, ko izmanto, lai modelētu prognozes un uzvedības analīzi, un tā ir balstīta uz lēmumu kokiem. Nejaušs mežs satur daudz lēmumu koku. Tas ir viens no populārākajiem maisa maisiņu algoritmiem. Soma piedāvā priekšrocību, ļaujot daudziem vājiem izglītojamajiem apvienot centienus pārspēt vienu spēcīgu izglītojamo. Tas arī palīdz samazināt dispersiju, tādējādi novēršot pārspīlēšanu. Pārsniegšana. Pārspīlēšana ir statistikā lietots termins, kas attiecas uz modelēšanas kļūdu, kas rodas, ja funkcija pārāk cieši atbilst noteiktam modeļu datu kopumam procedūrā.

Viens maisiņu trūkums ir tas, ka tas zaudē modeļa interpretējamību. Iegūtajam modelim var būt daudz aizspriedumu, ja tiek ignorēta pareiza procedūra. Neskatoties uz to, ka maisi ir ļoti precīzi, tas var būt dārgi skaitļošanas nolūkos, un tas dažos gadījumos var atturēt no tā lietošanas.

Bagāža pret palielināšanu

Labākā tehnika, kas jāizmanto starp maisu ievietošanu un palielināšanu, ir atkarīga no pieejamajiem datiem, simulācijas un visiem pašreizējiem apstākļiem. Aplēses dispersija tiek ievērojami samazināta, veicot maisīšanas un palielināšanas paņēmienus kombinācijas procedūras laikā, tādējādi palielinot precizitāti. Tāpēc iegūtie rezultāti pierāda augstāku stabilitāti nekā atsevišķi rezultāti.

Kad kāds notikums izaicina zemu sniegumu, maisa tehnika neradīs labāku novirzi. Tomēr palielināšanas paņēmiens rada vienotu modeli ar mazākām kļūdām, jo ​​tas koncentrējas uz priekšrocību optimizēšanu un trūkumu mazināšanu vienā modelī.

Kad viena modeļa izaicinājums ir pārspīlēts, maisa metode darbojas labāk nekā palielināšanas tehnika. Boosting saskaras ar problēmu, kā rīkoties ar pārmērīgu montāžu, jo tas pats par sevi nāk ar pārspīlēšanu.

Saistītie lasījumi

Finanses piedāvā finanšu modelēšanas un vērtēšanas analītiķi (FMVA) ™ FMVA® sertifikāciju. Pievienojieties 350 600+ studentiem, kuri strādā tādos uzņēmumos kā Amazon, J.P.Morgan un Ferrari sertifikācijas programma tiem, kas vēlas virzīt savu karjeru uz nākamo līmeni. Lai turpinātu mācīties un attīstīt savu zināšanu bāzi, lūdzu, izpētiet tālāk norādītos papildu finanšu resursus:

  • Klastera atlase Klastera atlase Statistikā klastera izlase ir izlases metode, kurā visa pētījuma populācija tiek sadalīta ārēji viendabīgā, bet iekšēji
  • Pārmērīgas pašpārliecinātības aizspriedumi Pārmērīgas pašpārliecinātības aizspriedumi Pārmērīgas pašpārliecinātības aizspriedumi ir nepareizs un maldinošs mūsu prasmju, intelekta vai talanta novērtējums. Īsāk sakot, tā ir egoistiska pārliecība, ka mēs esam labāki nekā patiesībā esam. Tas var būt bīstams neobjektivitāte, un tas ir ļoti produktīvs uzvedības finanšu un kapitāla tirgos.
  • Regresijas analīze Regresijas analīze Regresijas analīze ir statistikas metožu kopums, ko izmanto, lai novērtētu attiecības starp atkarīgo mainīgo un vienu vai vairākiem neatkarīgiem mainīgajiem. To var izmantot, lai novērtētu mainīgo lielumu attiecības un modelētu turpmākās attiecības starp tiem.
  • Laika rindu datu analīze Laika rindu datu analīze Laika rindu datu analīze ir datu kopu analīze, kas mainās noteiktā laika periodā. Laika rindu datu kopas reģistrē viena mainīgā novērojumus dažādos laika punktos. Finanšu analītiķi izmanto tādus laikrindu datus kā akciju cenu kustība vai uzņēmuma pārdošanas apjomi laika gaitā

Jaunākās publikācijas

$config[zx-auto] not found$config[zx-overlay] not found