Varför är utvärderingen 80% för utbildning och 20% för utvärdering men inte tvärtom?

by Nguyen Xuan Tung / Torsdag, 17 augusti 2023 / Publicerad i Artificiell intelligens, EITC/AI/GCML Google Cloud Machine Learning, Första stegen i maskininlärning, De 7 stegen i maskininlärning

Tilldelningen av 80 % vikt till träning och 20 % viktning till utvärdering inom ramen för maskininlärning är ett strategiskt beslut baserat på flera faktorer. Denna fördelning syftar till att hitta en balans mellan att optimera inlärningsprocessen och säkerställa en korrekt utvärdering av modellens prestanda. I det här svaret kommer vi att fördjupa oss i skälen bakom detta val och utforska det didaktiska värdet det erbjuder.

För att förstå logiken bakom 80 % utbildning och 20 % utvärderingsdelning är det avgörande att förstå de sju stegen i maskininlärning. Dessa steg, som inkluderar datainsamling, dataförberedelse, modellträning, modellutvärdering, modellinställning, modellimplementering och modellövervakning, bildar ett omfattande ramverk för att bygga modeller för maskininlärning.

Det första steget, datainsamling, innebär att man samlar in relevant data för att träna modellen. Dessa data förbehandlas sedan och förbereds i databeredningsfasen. När data är klara börjar modellträningsfasen, där modellen exponeras för träningsdataset för att lära sig mönster och samband. Modellens prestanda utvärderas sedan med hjälp av ett separat dataset i modellutvärderingsfasen.

Beslutet att allokera 80 % vikt till träning och 20 % vikt till utvärdering härrör från det faktum att träning är den primära fasen där modellen lär sig av data. Under träning justerar modellen sina interna parametrar för att minimera skillnaden mellan dess förutspådda utdata och de faktiska utdata i träningsdatauppsättningen. Denna process innebär att man iterativt uppdaterar modellens parametrar med hjälp av optimeringsalgoritmer som gradientnedstigning.

Genom att tilldela träning en högre vikt, prioriterar vi modellens förmåga att lära av data och fånga komplexa mönster. Utbildningsfasen är där modellen får sin kunskap och generaliserar från träningsdataset för att göra förutsägelser om osynliga data. Ju mer träningsdata modellen utsätts för, desto bättre kan den lära sig och generalisera. Att därför ägna en betydande del av utvärderingsprocessen till utbildning säkerställer att modellen har tillräcklig exponering för utbildningsdata för effektivt lärande.

Å andra sidan spelar utvärderingsfasen en avgörande roll för att bedöma modellens prestanda på osynliga data. Utvärderingsdatasetet, som är separat från träningsdataset, fungerar som en proxy för verkliga scenarier. Det låter oss mäta hur väl modellen kan generalisera sin inlärning till nya och osynliga instanser. Att utvärdera modellens prestanda är viktigt för att mäta dess noggrannhet, precision, återkallelse eller andra relevanta mätvärden, beroende på den specifika problemdomänen.

Den vikt på 20 % som ges till utvärderingen säkerställer att modellen testas noggrant på osynliga data och ger en realistisk bedömning av dess kapacitet. Denna utvärderingsfas hjälper till att avslöja eventuella problem som överanpassning, underanpassning eller fördomar i modellens förutsägelser. Det möjliggör också finjustering av hyperparametrar och modellarkitektur för att förbättra prestandan.

För att illustrera detta koncept, låt oss överväga ett praktiskt exempel. Anta att vi tränar en maskininlärningsmodell för att klassificera bilder av katter och hundar. Under träningsfasen lär sig modellen att skilja mellan egenskaper hos katter och hundar genom att analysera en stor datauppsättning av märkta bilder. Ju fler bilder modellen kan träna på, desto bättre blir den på att skilja mellan de två klasserna.

När utbildningen är klar utvärderas modellen med hjälp av en separat datauppsättning som innehåller bilder som den aldrig har sett förut. Denna utvärderingsfas testar modellens förmåga att generalisera sin inlärning och korrekt klassificera nya, osynliga bilder. Genom att allokera 20 % vikt till utvärdering säkerställer vi att modellens prestanda grundligt utvärderas på osedda data, vilket ger ett tillförlitligt mått på dess effektivitet.

Fördelningen av 80 % vikt till träning och 20 % viktning till utvärdering inom maskininlärning är ett strategiskt val som syftar till att optimera inlärningsprocessen samtidigt som man säkerställer en korrekt bedömning av modellens prestanda. Genom att ägna en betydande del av utvärderingsprocessen till utbildning prioriterar vi modellens förmåga att lära av data och fånga komplexa mönster. Samtidigt testar utvärderingsfasen noggrant modellen på osynliga data, vilket ger en realistisk bedömning av dess kapacitet.

Andra senaste frågor och svar ang EITC/AI/GCML Google Cloud Machine Learning:

Se fler frågor och svar i EITC/AI/GCML Google Cloud Machine Learning

Fler frågor och svar:

Fält: Artificiell intelligens
program: EITC/AI/GCML Google Cloud Machine Learning (gå till certifieringsprogrammet)
Lektion: Första stegen i maskininlärning (gå till relaterad lektion)
Ämne: De 7 stegen i maskininlärning (gå till relaterat ämne)

Taggad under: Artificiell intelligens, Förberedelse av data, Maskininlärning, Modellutvärdering, Modellutbildning, Optimeringsalgoritmer

EITCA Academy

Varför är utvärderingen 80% för utbildning och 20% för utvärdering men inte tvärtom?

Andra senaste frågor och svar ang EITC/AI/GCML Google Cloud Machine Learning:

Fler frågor och svar:

EITCA Academy är en del av det europeiska ramverket för IT-certifiering

Behörighet för EITCA Academy 80% EITCI DSJC Subsidiesupport

EITCA Academy

Logga in på ditt konto av varken ditt användarnamn eller e-postadress

FORGOT DINA DETALJER?

SKAPA ETT KONTO

Varför är utvärderingen 80% för utbildning och 20% för utvärdering men inte tvärtom?

Andra senaste frågor och svar ang EITC/AI/GCML Google Cloud Machine Learning:

Fler frågor och svar:

Behörighet för EITCA Academy 80% EITCI DSJC Subsidiesupport