Konvolutionella neurala nätverk (CNN) designades först för syftet med bildigenkänning inom datorseende. Dessa nätverk är en specialiserad typ av konstgjorda neurala nätverk som har visat sig vara mycket effektiva för att analysera visuella data. Utvecklingen av CNN drevs av behovet av att skapa modeller som exakt kunde klassificera och kategorisera bilder, och deras framgång inom denna domän har lett till att de används i många andra applikationer som objektdetektering, bildsegmentering och till och med naturlig språkbehandling.
CNN är inspirerade av strukturen och funktionen hos den visuella cortex i den mänskliga hjärnan. Liksom den visuella cortexen består CNN av flera lager av sammankopplade neuroner som bearbetar olika aspekter av indata. Den viktigaste innovationen hos CNN ligger i deras förmåga att automatiskt lära sig och extrahera relevanta funktioner från bilder, vilket eliminerar behovet av manuell funktionsteknik. Detta uppnås genom användning av faltningslager, som applicerar filter på inmatningsbilden för att upptäcka olika visuella mönster och funktioner, såsom kanter, hörn och texturer.
Det första genombrottet i CNN kom med introduktionen av LeNet-5-arkitekturen av Yann LeCun et al. 1998. LeNet-5 designades specifikt för handskriven siffror igenkänning och uppnådde anmärkningsvärda prestanda på MNIST dataset, en benchmark dataset som ofta används för att utvärdera bildigenkänningsalgoritmer. LeNet-5 demonstrerade kraften hos CNN:er när det gäller att fånga hierarkiska egenskaper från bilder, vilket möjliggör korrekt klassificering även i närvaro av variationer i skala, rotation och translation.
Sedan dess har CNN:er utvecklats avsevärt, med djupare och mer komplexa arkitekturer som utvecklats. Ett anmärkningsvärt framsteg var introduktionen av AlexNet-arkitekturen av Alex Krizhevsky et al. 2012. AlexNet uppnådde ett genombrott inom bildklassificering genom att vinna ImageNet Large Scale Visual Recognition Challenge (ILSVRC) med en betydligt lägre felfrekvens jämfört med tidigare tillvägagångssätt. Denna framgång banade vägen för det breda antagandet av CNN i bildigenkänningsuppgifter.
CNN har också framgångsrikt använts för andra datorseende uppgifter. Till exempel, vid objektdetektering, kan CNN kombineras med ytterligare lager för att lokalisera och klassificera objekt i en bild. Det berömda Region-baserade Convolutional Neural Network (R-CNN) introducerat av Ross Girshick et al. 2014 är ett exempel på en sådan arkitektur. R-CNN uppnådde toppmoderna resultat på riktmärken för objektdetektering genom att utnyttja kraften hos CNN för att extrahera funktioner och kombinera det med regionförslagsmetoder.
Konvolutionella neurala nätverk designades först för bildigenkänningsuppgifter inom datorseende. De har revolutionerat området genom att automatiskt lära sig relevanta funktioner från bilder, vilket eliminerar behovet av manuell funktionsteknik. Utvecklingen av CNN har lett till betydande framsteg inom bildklassificering, objektdetektering och olika andra datorseende uppgifter.
Andra senaste frågor och svar ang EITC/AI/ADL Advanced Deep Learning:
- Varför behöver vi tillämpa optimeringar i maskininlärning?
- När uppstår överanpassning?
- Kan Convolutional Neural Networks hantera sekventiell data genom att inkorporera faltningar över tid, som används i Convolutional Sequence to Sequence-modeller?
- Förlitar sig Generative Adversarial Networks (GAN) på idén om en generator och en diskriminator?