Pārspīlēšana - pārskats, noteikšanas un novēršanas metodes

Pārspīlēšana ir statistikā lietots termins, kas attiecas uz modelēšanas kļūdu, kas rodas, ja funkcija pārāk cieši atbilst noteiktam datu kopumam. Tā rezultātā pārspīlēšana var neiekļaut papildu datus, un tas var ietekmēt turpmāko novērojumu prognozēšanas precizitāti.

Pārspīlēts

Pārspīlēšanu var noteikt, pārbaudot validācijas metriku, piemēram, precizitāti un zaudējumus. Validācijas metrika parasti palielinās līdz brīdim, kad tā stagnē vai sāk samazināties, kad modeli ietekmē pārmērīga uzstādīšana. Augošās tendences laikā modelis meklē labu piemērotību, kas, sasniedzot to, sāk tendenci pasliktināties vai stagnēt.

Ātrais kopsavilkums

  • Pārspīlēšana ir modelēšanas kļūda, kas ievieš modeļa neobjektivitāti, jo tā ir pārāk cieši saistīta ar datu kopu.
  • Pārspīlēšana padara modeli atbilstošu tikai tā datu kopai un nav būtisks citām datu kopām.
  • Dažas no pārmērīgas izmantošanas novēršanai izmantotajām metodēm ietver komplektēšanu, datu papildināšanu, datu vienkāršošanu un savstarpēju validāciju.

Kā noteikt pārspīlēšanu?

Pirms datu pārbaudes ir gandrīz neiespējami noteikt pārspīlēšanu. Tas var palīdzēt novērst pārspīlēšanas raksturīgo pazīmi, proti, nespēju vispārināt datu kopas. Tāpēc datus var sadalīt dažādās apakškopās, lai tos būtu viegli apmācīt un testēt. Dati tiek sadalīti divās galvenajās daļās, t.i., testa komplektā un apmācības komplektā.

Apmācību komplekts pārstāv lielāko daļu pieejamo datu (apmēram 80%), un tas apmāca modeli. Testa kopa pārstāv nelielu datu kopas daļu (apmēram 20%), un to izmanto, lai pārbaudītu to datu precizitāti, ar kuriem nekad iepriekš nav mijiedarbojies. Segmentējot datu kopu, mēs varam pārbaudīt modeļa veiktspēju katrā datu kopā, lai pamanītu pārmērīgu uzstādīšanu, kad tas notiek, kā arī redzēt, kā darbojas apmācības process.

Veiktspēju var izmērīt, izmantojot precizitātes procentuālo daudzumu, kas novērots abās datu kopās, lai secinātu par pārspīlēšanas klātbūtni. Ja modelis treniņu komplektā darbojas labāk nekā testa komplekts, tas nozīmē, ka modelis, iespējams, ir pārlieku piemērots.

Kā novērst pārmērīgu uzstādīšanu?

Tālāk ir minēti daži veidi, kā novērst pārmērīgu aprīkojumu:

1. Apmācība ar vairāk datu

Viens no veidiem, kā novērst pārmērīgu aprīkojumu, ir apmācība, izmantojot vairāk datu. Šāda opcija atvieglo algoritmu darbību. Algoritmi (Algos) Algoritmi (Algos) ir instrukciju kopums, kas tiek ieviests uzdevuma veikšanai. Algoritmi tiek ieviesti, lai automatizētu tirdzniecību, lai gūtu peļņu tādā biežumā, ka tirgotājam nav iespējams noteikt signālu. labāk samazināt kļūdas. Tā kā lietotājs modelē ievada vairāk apmācības datu, viņš nevarēs pārspīlēt visus paraugus un būs spiests vispārināt, lai iegūtu rezultātus.

Lietotājiem pastāvīgi jāapkopo vairāk datu, lai palielinātu modeļa precizitāti. Tomēr šī metode tiek uzskatīta par dārgu, un tāpēc lietotājiem ir jānodrošina, lai izmantotie dati būtu atbilstoši un tīri.

2. Datu palielināšana

Alternatīva apmācībai ar vairāk datu ir datu palielināšana, kas ir lētāka salīdzinājumā ar pirmo. Ja jūs nevarat pastāvīgi apkopot vairāk datu, pieejamos datu kopas varat padarīt dažādas. Datu palielināšana ļauj izlases datiem izskatīties nedaudz atšķirīgi katru reizi, kad tos apstrādā modelis. Procesa rezultātā katra datu kopa šķiet unikāla modelim un neļauj modelim uzzināt datu kopu īpašības.

Vēl viena iespēja, kas darbojas tāpat kā datu palielināšana, ir trokšņa pievienošana ievades un izvades datiem. Trokšņa pievienošana ievadei padara modeli stabilu, neietekmējot datu kvalitāti un privātumu, savukārt, pievienojot troksni izvadam, dati kļūst daudzveidīgāki. Tomēr trokšņa pievienošana jāveic ar mēru, lai trokšņa apjoms nebūtu tik liels, lai padarītu datus nepareizus vai pārāk atšķirīgus.

3. Datu vienkāršošana

Pārspīlēšana var notikt modeļa sarežģītības dēļ, piemēram, pat ar lielu datu apjomu modelim tomēr izdodas pārspēt apmācības datu kopu. Datu vienkāršošanas metode tiek izmantota, lai samazinātu pārspīlēšanu, samazinot modeļa sarežģītību, lai tas būtu pietiekami vienkāršs, lai tas nepārsniegtu.

Dažas no darbībām, kuras var īstenot, ietver lēmumu koku apgriešanu, parametru skaita samazināšanu. Parametrs Parametrs ir noderīga statistiskās analīzes sastāvdaļa. Tas attiecas uz raksturlielumiem, kas tiek izmantoti, lai definētu noteiktu populāciju. Tas tiek izmantots neironu tīklā un tiek izmantots pametums neitrālā tīklā. Modeļa vienkāršošana var arī padarīt modeli vieglāku un darboties ātrāk.

4. Ansamblis

Ansamblis ir mašīnmācīšanās paņēmiens, kas darbojas, apvienojot divu vai vairāku atsevišķu modeļu prognozes. Populārākās komplektēšanas metodes ietver pastiprināšanu un maisiņu ievietošanu. Paaugstināšana darbojas, izmantojot vienkāršus bāzes modeļus, lai palielinātu to kopējo sarežģītību. Tas apmāca lielu skaitu vāju izglītojamo, kas sakārtoti secībā tā, ka katrs apgūstamais secībā mācās no pirms tam mācāmā kļūdām.

Veicināšana apvieno visus vājus izglītojamos secībā, lai izceltu vienu spēcīgu izglītojamo. Otra ansambļa veidošanas metode ir maisiņu iesaiņošana, kas ir pretējs pastiprināšanai. Soma darbojas, apmācot lielu skaitu spēcīgu izglītojamo, kas sakārtoti paralēli, un pēc tam tos apvienojot, lai optimizētu viņu prognozes.

Vairāk resursu

Finanses ir oficiālais globālās finanšu modelēšanas un vērtēšanas analītiķu (FMVA) ™ FMVA® sertifikācijas nodrošinātājs. Pievienojieties 350 600+ studentiem, kuri strādā tādos uzņēmumos kā Amazon, JP Morgan un Ferrari sertifikācijas programma, kas paredzēta ikvienam, lai kļūtu par pasaules klases finanšu analītiķi. . Lai turpinātu virzīties uz priekšu, noderēs tālāk norādītie papildu finanšu resursi:

  • Finanšu pamatstatistikas jēdzieni Finanšu pamatstatistikas jēdzieni Stingra statistikas izpratne ir ārkārtīgi svarīga, lai palīdzētu mums labāk izprast finanses. Turklāt statistikas jēdzieni var palīdzēt investoriem uzraudzīt
  • Datu ieguves neobjektivitāte Datu ieguves neobjektivitāte attiecas uz pieņēmumu par svarīgumu, ko tirgotājs piešķir notikumam tirgū, kas faktiski bija nejaušības vai neparedzēta rezultāts.
  • Izlases mežs Nejaušs mežs Izlases mežs ir paņēmiens, ko izmanto, lai modelētu prognozes un uzvedības analīzi, un tas ir balstīts uz lēmumu kokiem. Nejaušā mežā ir daudz lēmumu koku
  • Beznosacījumu varbūtība Beznosacījumu varbūtība Beznosacījuma varbūtība, kas pazīstama arī kā marginālā varbūtība, attiecas uz varbūtību, kuru neietekmē iepriekšējie vai turpmākie notikumi. Citiem vārdiem sakot,

Jaunākās publikācijas

$config[zx-auto] not found$config[zx-overlay] not found