AttentionMNIST: een gegevensset voor het bijhouden van de aandacht van een muisklik voor handgeschreven cijfer- en alfabetherkenning

Meerdere op aandacht gebaseerde modellen die objecten herkennen via een reeks glimpen hebben resultaten gerapporteerd over handgeschreven cijferherkenning. Er zijn echter geen aandachtsregistratiegegevens beschikbaar voor handgeschreven cijfer- of alfabetherkenning. De beschikbaarheid van dergelijke gegevens zou het mogelijk maken op aandacht gebaseerde modellen te evalueren in vergelijking met menselijke prestaties. We verzamelen muisklik-aandachtsregistratiegegevens van 382 deelnemers die handgeschreven cijfers en alfabetten (hoofdletters en kleine letters) proberen te herkennen uit afbeeldingen via sequentiële sampling. Afbeeldingen uit benchmarkdatasets worden gepresenteerd als stimuli. De verzamelde dataset, genaamd AttentionMNIST, bestaat uit een reeks voorbeeldlocaties (muisklik), prvoorgeschreven klasselabel(s) bij elke bemonstering, en de duur van elke bemonstering. Gemiddeld observeren onze deelnemers slechts 12,8% van een afbeelding voor herkenning. We stellen een basismodel voor om de locatie en de klasse(n) te voorspellen die een deelnemer bij de volgende bemonstering zal selecteren. Wanneer het wordt blootgesteld aan dezelfde stimuli en experimentele omstandigheden als onze deelnemers, schiet een veelgeciteerd, op aandacht gebaseerd versterkingsmodel tekort aan menselijke efficiëntie.

Chinese cistanchekruid- Voorkom producten tegen de ziekte van Alzheimer

Machine learning (ML)-modellen die objecten herkennen via een reeks glimpen hebben de afgelopen jaren aan belangstelling gewonnen vanwege hun schaalbaarheid en efficiëntie. Veel van deze modellen, zoals 1–7, hebben experimentele resultaten gerapporteerd op de benchmark-MNIST-dataset voor handgeschreven cijferherkenning. Helaas zijn er geen aandachtsregistratiegegevens voor de MNIST beschikbaar. Dit verhindert de evaluatie van op aandacht gebaseerde modellen in vergelijking met menselijke prestaties. We zijn in dat gat gesprongen door een dataset te verzamelen van volwassen deelnemers die via sequentiële steekproeven handgeschreven cijfers en alfabetten uit afbeeldingen probeerden te herkennen. In tegenstelling tot oogbewegings-aandachtsregistratie (emAT), klikt een deelnemer op de locatie in het beeld die hij wil zien (een vorm van muisklik-aandachtsregistratie (mcAT)). Onmiddellijk daarna selecteert hij de klasse(n) waartoe hij voorspelt dat het object zou kunnen behoren op basis van zijn observaties tot nu toe. Bij elke bemonsteringsepisode bestaan onze gegevens dus uit de geselecteerde beeldlocatie, de voorspelde klasselabel(s) en de tijd die is verstreken sinds de laatste aflevering door de deelnemer. Na elk beeld ontvangt de deelnemer een beloning op basis van zijn prestatie (nauwkeurigheid en efficiëntie).

Voordelen van cistanche tubulosa-Anti-Alzheimerziekte

Voordelen van mcAT ten opzichte van emAT voor handgeschreven cijfer-/alfabetherkenning.

(1) vlees bevat aanzienlijke intra- en interpersoonlijke variabiliteit in de fixatielocatie, vooral voor statische stimuli (afbeeldingen)8,9. Er is dus een grote hoeveelheid oogfixatiegegevens nodig om tot statistisch significante conclusies te komen. mcAT is niet gevoelig voor sommige van de bronnen van technische ruis die vaak voorkomen bij eye-trackinggegevens10. (2) Oogbewegingen kunnen het resultaat zijn van zowel vrijwillige als onvrijwillige mechanismen11. Om taakafhankelijke besluitvorming te vergemakkelijken, presenteren we de deelnemers voldoende tijd-, context- en versterkingssignalen, die ook aan een ML-model kunnen worden gepresenteerd. (3) De precisie en nauwkeurigheid van emAT-gegevens zijn afhankelijk van de eye-tracker, terwijl die van mcAT onafhankelijk zijn van welk apparaat dan ook. (4) Het is een uitdaging om iemands oogbewegingen te synchroniseren met zijn klassenkeuze. Om dit te ondervangen, worden in ons geval de bemonsteringslocatie en klas(sen) in dezelfde aflevering geselecteerd. (5) Ten slotte maakt onze methode het verzamelen van gegevens mogelijk met behulp van Amazon Mechanical Turk (MTurk), zoals in12,13, wat kosten- en tijdeffectief is en gemakkelijk reproduceerbaar.

Bijdragen.

We verzamelen een mcAT-dataset, genaamd AttentionMNIST, met behulp van MTurk van 382 deelnemers, beloond voor het nauwkeurig en efficiënt herkennen van handgeschreven cijfers en alfabetten (hoofdletters en kleine letters) uit afbeeldingen via sequentiële bemonstering. Afbeeldingen uit benchmarkdatasets (MNIST, EMNIST) worden gepresenteerd als stimuli. Gemiddeld worden 169,1 antwoorden per cijfer-/alfabetklasse geregistreerd. Met behulp van deze dataset laten we het volgende zien: • Gemiddeld hebben deelnemers 4,2, 4,7 en 4,9 monsters nodig om een cijfer-, hoofdletter- en kleine letter te herkennen, wat overeenkomt met respectievelijk slechts 11,3%, 13,4% en 13,7% van het beeldgebied. . De nauwkeurigheid van de classificatie neemt toe met meerdere monsters. • Een model, gepresenteerd als de basislijn, kan de klasse(n) en locatie voorspellen die een deelnemer zal selecteren bij de volgende bemonsteringsepisode met een nauwkeurigheid van respectievelijk 74,4% en 67,7%, beide gemiddeld over alle bemonsteringen en datasets. De nauwkeurigheid van de klassevoorspelling neemt toe en de nauwkeurigheid van de locatievoorspelling neemt af met een toename van het aantal monsters. • Bij blootstelling aan dezelfde stimuli en omstandigheden als onze deelnemers vereist een veelgeciteerd, op versterking gebaseerd recurrent aandachtsmodel (RAM)3 3,7, 8,5 en 7,6 steekproeven om een cijfer-, hoofdletter- en kleine letter te herkennen, wat overeenkomt met 8,9% , respectievelijk 21.0%, 18,7% van het afbeeldingsgebied. Andere op aandacht gebaseerde bekrachtigingsmodellen (bijv. 1,2,4,5,7,14) kunnen op vergelijkbare wijze worden geëvalueerd in vergelijking met menselijke prestaties.

Cistanche supplement near me-Improve memory2

Cistanche-supplement bij mij in de buurt - Geheugen verbeteren

Klik hier om de producten van Cistanche Verbeterd geheugen en preventie van de ziekte van Alzheimer te bekijken

【Vraag om meer】 E-mail:cindy.xue@wecistanche.com / Whats-app: 0086 18599088692 / Wechat: 18599088692

Gerelateerd werk

De temporele volgorde van muisklikken in mcAT is analoog aan het oogbewegingsscanpad10. mcAT kan emAT effectief vervangen, omdat ze aanzienlijk gecorreleerd zijn10,12,13,15-17. In mcAT-onderzoeken zijn verschillende soorten stimuli gebruikt, zoals afbeeldingen van levende en levenloze objecten, afbeeldingen van natuurlijke scènes, statische webpagina's, lay-outs van zoekpagina's en twee lijsten met alfanumerieke reeksen voor visuele vergelijking. McAT is echter niet gebruikt voor handgeschreven classificatietaken in cijfers/alfabet of voor de evaluatie van op aandacht gebaseerde classificatiemodellen. In mcAT-onderzoeken is gebruik gemaakt van kenmerken zoals de tijd tot contact, de relatieve fixatiefrequentie in interessegebieden (AOI's), het relatieve aantal proefpersonen dat minstens één keer klikte in een AOI10, het aantal fixaties per proef, herfixatie binnen proeven, verblijftijden en scanpaden17 , fixatiekaarten , AOI en informatiestroompatroon . De reeks kliklocaties met tijdstempel en voorspelde klassenlabels vormen de ruwe gegevens die nodig zijn om de efficiëntie en nauwkeurigheid van op aandacht gebaseerde modellen of mensen bij classificatietaken te evalueren. Uit deze gegevens kunnen verschillende kenmerken worden afgeleid. Onze mcAT-dataset, met meerdere voordelen ten opzichte van eye-tracking-gegevens, vult een cruciale leemte in op aandacht gebaseerd modelonderzoek op AI, ML en andere gebieden. Met onze dataset kunnen op aandacht gebaseerde modellen worden geëvalueerd in vergelijking met menselijke prestaties. Dit zal onder andere de ontwikkeling vergemakkelijken van efficiënte en realtime optische karakterherkenningssystemen die in de praktijk op grote schaal worden gebruikt (zie bijvoorbeeld 18-20). Principes die visuele fixaties begeleiden, kunnen worden verondersteld en getest met behulp van onze dataset. De succesvolle principes kunnen worden overgedragen om systemen te ontwikkelen voor visuele herkenningstaken in de echte wereld waarbij efficiëntie van cruciaal belang is, zoals bij autonoom rijden.

Gegevens

Onze gegevens bestaan uit een reeks T-afleveringen voor elke deelnemer. De gegevens van elke aflevering bestaan uit (1) de locatie in de afbeelding waarop de deelnemer heeft geklikt (één klik in afbeelding per aflevering), (2) de door de deelnemer geselecteerde klas(sen) en (3) de tijd die de deelnemer nodig heeft gehad deelnemer om het huidige monster te registreren (dat wil zeggen de tijd die is verstreken tussen de laatste en huidige klik in de afbeelding). In dit gedeelte wordt ons gegevensverzamelingsproces toegelicht, inclusief de selectie van stimuli, deelnemers, visuele taken, prestatiescores en gegevensfiltering.

Stimuli selectie. Stimuli worden geselecteerd uit afbeeldingen in twee benchmarkdatasets: (1)

De MNIST21-dataset bestaat uit 70,000 gelabelde afbeeldingen (28×28 pixels) van 10 handgeschreven cijfers {0, 1, ..., 9}. (2)

De EMNIST22-dataset bestaat uit 145.600 afbeeldingen (28×28 pixels) van handgeschreven Engelse alfabetten in hoofdletters en kleine letters, die een evenwichtige klasse vormen. Alle afbeeldingen zijn gelabeld met een van de 26 klassen {a, b, ..., z}. Een label in hoofdletters of kleine letters is echter niet aan een afbeelding gekoppeld. Uit elke categorie selecteren we 15 goedgevormde cijfers uit MNIST en 15 goedgevormde alfabetten, elk uit de EMNIST-datasets in hoofdletters en EMNIST in kleine letters. Een goed gevormd cijfer of alfabet is vergelijkbaar met de norm van zijn klasse. We presenteren dus stimuli uit een set van 15(10 + 26 + 26)=930 unieke afbeeldingen, waarbij 15 afbeeldingen tot elk van de 62 klassen behoren. De goedgevormde 930-afbeeldingen worden als volgt geselecteerd:

Stap 1: Normaliseer elke afbeelding met min-max om de intensiteit te schalen tussen 0 en 1.

Stap 2: Label goed opgemaakte EMNIST-afbeeldingen in hoofdletters of kleine letters. Voor elke alfabetklasse wordt handmatig een goed gevormd alfabet uit zowel hoofdletters als kleine letters geselecteerd en gelabeld. De cosinusovereenkomst van alle afbeeldingen die tot die klasse behoren met de twee gelabelde afbeeldingen wordt berekend. Aan de afbeeldingen die boven de cosinus-gelijkenisdrempel liggen (empirisch gekozen als 0.8) wordt het label in hoofdletters of kleine letters toegewezen.

Stap 3: Bereken het gemiddelde van de afbeeldingen die bij elke klasse horen. Het gemiddelde beeld van een klasse vormt de norm ervan. Een afbeelding komt in aanmerking om een stimulus te zijn als de cosinusovereenkomst met het gemiddelde beeld van zijn klasse groter is dan een empirisch bepaalde drempel (0.7 voor MNIST, 0.75 voor EMNIST).

Stap 4: Van de in aanmerking komende afbeeldingen worden 15 afbeeldingen uit elke klasse handmatig geselecteerd op basis van hoe goed ze zijn gevormd. Elke afbeelding, oorspronkelijk 28 x 28 pixels, wordt verkleind tot 27 x 25 door de pixels nabij de grenzen te verwijderen, aangezien deze geen intensiteitsvariatie hebben. Voor elk van de 62 klassen wordt het gemiddelde van deze 15 beelden berekend. We duiden deze gemiddelde afbeeldingen aan als I1, I2, ..., In voor n klassen in elke dataset.

Deelnemers.

In totaal namen 382 verschillende volwassen individuen deel aan onze studie. Er zijn geen selectiecriteria gehanteerd. Een deelnemer kon op meerdere afbeeldingen reageren. Voor elk van de 62 klassen werden gemiddeld 169,1 reacties geregistreerd.

Voordelen van cistanche tubulosa-Anti-Alzheimerziekte

Visuele taak.

De MTurk-interface voor onze visuele taak wordt getoond in figuur 1. Een canvas van 270×250 geeft altijd een achtergrondafbeelding met lage intensiteit weer. De achtergrond- en stimulusafbeeldingen worden tien keer opgewaardeerd naar 270×250. Het midden van het canvas is uitgelijnd met het midden van de afbeeldingen. Achtergrond In eerste instantie is de achtergrond het gemiddelde van alle afbeeldingen in de dataset waaruit de stimulus is gehaald. Na de eerste aflevering is de achtergrond het gemiddelde van alle afbeeldingen uit de reeks klassen die de deelnemer in de laatste aflevering heeft geselecteerd. In de echte wereld wordt de context voor de locatie, grootte en oriëntatie van een cijfer of alfabet verkregen uit het schrift in de buurt, wat hier ontbreekt. Toen onze experimenten werden uitgevoerd met een blanco achtergrond, bemonsterden de deelnemers vaak locaties van de afbeelding die geen enkel deel van het object bevatten. Dit gedrag werd onder controle gehouden door het gemiddelde beeld van de geselecteerde klasse(n) op een achtergrond met lage intensiteit te presenteren en de grootte van alle MNIST- en EMNIST-afbeeldingen te verkleinen van 28×28 pixels naar 27×25. Elke keer dat de deelnemer een locatie in het canvas selecteert door erop te klikken, wordt een patch van 50×50 pixels gecentreerd op die locatie van het stimulusbeeld onthuld. Een patch die eenmaal is onthuld, blijft zichtbaar tot de laatste aflevering. De taak van een deelnemer bestaat uit drie stappen bij elke aflevering t (t=1, ..., T):

Stap 1: Klik ergens op het canvas van 270×250 om de patch te onthullen die hij wil samplen. Alleen de eerste klik wordt geaccepteerd.

Stap 2: Herken het cijfer/alfabet van alle tot nu toe waargenomen monsters. De deelnemer kan meerdere klassen selecteren en zal minimaal één klasse moeten kiezen uit de lijst met klassen die onder het canvas wordt weergegeven.

Stap 3: Klik op "Volgende" onderaan het scherm om door te gaan. Om de klasse nauwkeurig en snel af te leiden, zal de deelnemer de locaties oordeelkundig moeten kiezen op basis van zijn observaties tot aan de huidige aflevering. Er is geen tijdslimiet voor een aflevering. We beperken de totale tijd voor T-afleveringen van een afbeelding echter tot zes minuten. We kozen voor T=12 omdat veel geciteerde werken over op aandacht gebaseerde handschriftherkenning of -generatie minder dan twaalf glimpen hebben gebruikt (RAM3 zou bijvoorbeeld MNIST-cijfers binnen zeven glimpen kunnen herkennen, DRAW23 zou MNIST-cijfers binnen elf glimpen kunnen genereren), en mensen kunnen handgeschreven cijfers en alfabetten in veel minder dan twaalf glimpen herkennen.

Prestatiescore. Er wordt een score aan de deelnemer toegekend op basis van zijn nauwkeurigheid en efficiëntie in termen van het aantal waargenomen monsters. Laat het de reeks klassen zijn die hij in elke aflevering t heeft gekozen. Tien, zijn score op t is:

Figure 1. Our MTurk interface as seen by a participant. Te second sampling for an EMNIST uppercase alphabet is shown.

Figuur 1. Onze MTurk-interface zoals gezien door een deelnemer. De tweede steekproef voor een EMNIST-alfabet in hoofdletters wordt getoond.

waar |.| geeft de kardinaliteit van een set aan. De totale score die wordt toegekend in T-afleveringen is h {{0}} T t=1 Pt. Daarom is het maximum dat iemand kan scoren in T-afleveringen T als hij altijd alleen de juiste klasse kiest. Het minimum dat iemand kan scoren in T-afleveringen is nul als hij altijd een reeks klassen kiest die niet de juiste klasse bevat. Dus 0 Kleiner dan of gelijk aan h Kleiner dan of gelijk aan T. Hoe eerder een deelnemer de juiste klasse selecteert, hoe hoger zijn score zal zijn. Dit scoremechanisme houdt dus rekening met de nauwkeurigheid van de herkenning en de efficiëntie van de bemonstering. Proberen de score te maximaliseren door slechts één klasse uit de allereerste aflevering te kiezen, zal riskant zijn, aangezien een score van nul wordt toegekend als het niet de juiste klasse is, terwijl een score groter dan nul wordt toegekend als de deelnemer meerdere klassen kiest ( zelfs alle klassen) die de juiste klasse bevatten. Dit zal de deelnemer motiveren om te reageren op basis van de waarschijnlijke klassen in zijn hoofd tijdens elke aflevering. De score die bij elke aflevering wordt toegekend, wordt pas bekendgemaakt na voltooiing van T-afleveringen, om te voorkomen dat de deelnemer enige hint krijgt. Bij MTurk is de vergoeding die een deelnemer ontvangt voor een afbeelding evenredig aan zijn totaalscore, h.

Gegevensfiltering.

Als de score van een deelnemer bij de laatste (dat wil zeggen T-de) aflevering voor een stimulusbeeld nul is, worden zijn gegevens die voor dat beeld zijn geregistreerd, weggegooid. De gegevens worden ook verwijderd als een deelnemer de taak onvolledig laat. Met dit selectiecriterium verkregen we reacties op 1736 stimuli van MNIST, 4431 stimuli van EMNIST in hoofdletters en 4315 stimuli van EMNIST in kleine letters; dat wil zeggen gemiddeld 169,1 reacties per klas.

Modellen en methoden voor het gebruik van gegevens

In deze sectie illustreren we het nut van de verzamelde gegevens door (4.1) een basismodel te bieden voor het voorspellen van het gedrag van een deelnemer, en (4.2) te laten zien hoe een bestaand op aandacht gebaseerd bekrachtigingsmodel kan worden vergeleken met menselijke cijfer-/alfabetherkenning. prestatie. De basislijn voor gedragsvoorspelling. Gedrag bij elke aflevering t bestaat uit locatieselectie en klassenselectie. Omdat een steekproef verschillende hoeveelheden informatie bevat voor verschillende waarnemers, of zelfs voor dezelfde waarnemer op verschillende tijdstippen9, is gedragsvoorspelling van elke deelnemer een moeilijk probleem. Laat n het aantal klassen in een dataset zijn, ηt de singletonset die de echte klasse bevat voor het stimulusbeeld op t, ct de set klassen is en lt de locatie zijn die door een deelnemer op t is geselecteerd, als zijn observatie op t, en 1:t geeft de reeks 1, 2, ..., t aan. Tot elke t zijn de waarnemingen van een deelnemer o1:t en de door hem geselecteerde locaties l1:t. We formuleren het probleem van de gedragsvoorspelling van een deelnemer als volgt: Klassevoorspelling Schat de waarschijnlijkheid van i∈ct (i=1, 2, ..., n) gegeven zijn o1:t en l1:t, dwz P( ik ∈ ct|o1:t, l1:t). Locatievoorspelling Schat de waarschijnlijkheid van lt+1 gegeven zijn o1:t, l1:t en ct, dwz P(lt+1|o1:t, l1:t,ct). Klasse voorspelling. Om te voorspellen welke klasse een deelnemer in aflevering t zal kiezen, berekenen we de waarschijnlijkheid dat de beeldstimulus op t tot klasse I behoort, gegeven de door de deelnemer geselecteerde locaties l1:t en de bijbehorende observaties o1:t, als volgt:

waarbij Ii het gemiddelde is van de stimuliafbeeldingen (27×25) die tot klasse i behoren, is I′ een 27×25-afbeelding die o1:t op l1:t bevat, · geeft scalair product aan, en .geeft Euclidische norm aan. Alle pixelintensiteiten zijn niet-negatief. In elke episode t vormen de k hoogst waarschijnlijke klassen uit de geloofsverdeling P(i|o1:t, l1:t) de verzameling klassen, ˆct, voorspeld door ons model, waarbij k=|ct|. De nauwkeurigheid van de classificatie wordt gemeten met behulp van de Jaccard-index (JI). JI meet de gelijkenis tussen twee sets, X en Y, als: J(X, Y) {{10}} |X ∩ Y|/|X ∪ Y|. JI wordt begrensd tussen 0 en 1; als X=Y, J(X, Y)=1. Bij elke episode t is de classificatienauwkeurigheid van een deelnemer J(ηt,ct), terwijl die van ons model J(ηt, ˆct) is. Vanwege zijn noemer bestraft JI meer naarmate het aantal elementen in de voorspelde verzameling (ct of ˆct) die niet in ηt voorkomen toeneemt, wat voor ons geval een wenselijke eigenschap is. De overeenkomst tussen de classificatie van een deelnemer en die van ons model wordt gemeten met J(ct, ˆct). Ons model wordt ook geëvalueerd in termen van klasseselectie en afwijzingsnauwkeurigheid met betrekking tot elke deelnemer. Stel dat st=ct − ct−1 de verzameling nieuwe geselecteerde klassen is en rt=ct−1 − ct de verzameling klassen is die door een deelnemer op t is afgewezen. Op dezelfde manier is ˆst=ˆct − ct−1 de verzameling nieuwe klassen die zijn geselecteerd, en ˆrt=ct−1 − ˆct is de verzameling klassen die door ons model op t is afgewezen. Vervolgens kan de klassenselectie en -afwijzing van het model worden vergeleken met die van een deelnemer door J(st, ˆst) wanneer |st| > 0 en J(rt, ˆrt) wanneer |rt| > 0, respectievelijk. Locatievoorspelling. Hypothese Idealiter zou de geloofsverdeling over alle klassen unimodaal moeten zijn (dwz slechts één piek) en een dunne Gaussiaans (dwz kleine standaarddeviatie) van vorm, wat aangeeft dat een deelnemer vertrouwen heeft in de klasse (toestand) van de stimulus (omgeving). Zoals echter blijkt uit onze gegevens (zie figuur 2), raakt een deelnemer vaak in de war tussen meerdere klassen, vooral tijdens de eerste paar afleveringen. In deze gevallen heeft zijn geloofsverdeling meerdere pieken of is hij een dikke Gaussiaans. We veronderstellen dat het doel van een deelnemer is om te convergeren naar een unimodale en dunne Gaussiaans, om dit te bereiken, waarbij hij selectief locaties bemonstert die de waarschijnlijkheid van alle klassen behalve één verkleinen. Deze hypothese leidt tot het minimaliseren van de onzekerheid over de klassen (omgevingstoestanden), wat een bekend principe is dat leidend is voor actie24, inclusief oogbewegingen25.

Figure 2. Duration and class distribution over all participants and stimuli belonging to categories '0', 'a', and 'A'.

Figuur 2. Duur en klassenverdeling over alle deelnemers en stimuli behorend tot de categorieën '0', 'a' en 'A'.

Te observations at certain locations in a stimulus image can discriminate between certain classes. Te observation at a location l might indicate that the numeral/alphabet belongs to class I and not to class j. Such locations are more salient than others in achieving a participant's goal. To sample such locations, a saliency map, Dij, is computed such that if l is salient, the observation at l is evidence to increase the probability of class I and decrease that of j. Mathematically, Dij = N (., σ ) ∗ g(.), where ∗ is the convolution operator, g(.) is a saliency scoring function, and N (., σ ) is a 5×5 Gaussian kernel with standard deviation σ = 6 to smooth the saliency scores. We denote the set of all saliency maps as D = {Dij: i, j ∈ {1, 2, ..., n}, i �= j}. A location l in a stimulus image is salient for class i with respect to class j if Dij(l)>θ, waarbij de drempel θ=0.5 × max(D) een empirisch bepaalde scalaire grootheid is.

We beschouwen twee asymmetrische metrieken, Kullback-Leibler (KL) divergentie en verschil, als kandidaten voor de functie g. KL-divergentie Gegeven twee genormaliseerde gemiddelde beelden, Ii en Ij, meet de KL-divergentie KL(Ii, Ij) het informatieverlies wanneer Ij wordt gebruikt om Ii te benaderen. Dit wordt voor elke pixel k berekend als26: KL(Ii,k, Ij,k)=Ii,k log δ + Ii,k Ij,k+δ, waarbij Ij,k de intensiteit van de k-de pixel is van Ij, en δ is een regularisatieconstante. Wanneer Ii,k=Ij,k, KL(Ii,k,Ij,k) → 0. Verschil Gegeven twee genormaliseerde gemiddelde afbeeldingen, Ii en Ij, is het verschil voor elke pixel k Diff (Ii,k, Ij,k)=Ii,k − Ij,k. Wanneer Ii,k=Ij,k, Verschil (Ii,k, Ij,k)=0. Een deelnemer is onzeker over de reeks lessen, ct, die hij in de huidige aflevering heeft geselecteerd. Daarom beschouwen we voor locatievoorspelling alleen die saillantiekaarten in D die de klassen in ct omvatten. Een locatie wordt voorspeld als deze saillant is op basis van deze saillantiekaarten en nooit door de deelnemer is geselecteerd. Gegeven o1:t, l1:t en ct wordt de locatie lt+1 dus als volgt voorspeld:

waarbij Ŵ de verzameling 3-tupels is die de voorspelde locatie ˆl bevat, de klasse waarvoor deze opvallend is (i), en met betrekking tot welke klasse (j). De locatie wordt correct voorspeld als er een �ˆl, i, j� ∈ Ŵ bestaat zodat �ˆl − lt+1� < |, I ∈ ct+1 en j /∈ ct{{3} }, waarbij|de maximale Euclidische afstand is tussen de middelste pixel en elke pixel in een observatieveld. De pseudocode voor locatievoorspelling wordt getoond in algoritme 1. Een gedetailleerde uitleg van de pseudocode is opgenomen in sectie S1 van het aanvullende materiaal. (De kansverdeling, P(lt+1|o1:t, l1:t,ct), kan worden berekend door aan te nemen dat de saillantiescore van locaties die niet in Ŵ liggen nul is, en vervolgens de saillantiescore van alle locaties te normaliseren. locaties om tot één te komen. Deze waarschijnlijkheid is echter niet gebruikt, aangezien vergelijking (3) voldoende is voor de doeleinden van dit artikel.)

Evaluatie van op aandacht gebaseerde modellen.

Als vertegenwoordiger van op aandacht gebaseerde modellen beschouwen we het veelgeciteerde recurrente aandachtsmodel (RAM)3 dat experimentele resultaten op de MNIST-dataset rapporteert. Dit versterkingsmodel bemonstert achtereenvolgens een afbeelding en beslist op elk bemonsteringstijdstip waar de volgende bemonstering moet plaatsvinden, waardoor het geschikt is voor evaluatie met behulp van de verzamelde gegevens.

RAM

classificeert beelden met behulp van een reeks glimpen. De volgende locatie wordt stochastisch gekozen uit een verdeling die is geparametriseerd door een locatienetwerk. Het model wordt end-to-end getraind door de volgende doelstelling3 te maximaliseren:

waarbij M het aantal afleveringen is, T het aantal observaties is, xi 1:t de interactiesequenties zijn die worden verkregen door de huidige agent uit te voeren tot I afleveringen, ui t de huidige actie is, θ de set trainbare parameters is, Ri t is de cumulatieve beloning, bt is een basislijn en π(ui t|xi 1:t; θ ) is het beleid. Het gedrag van RAM kan worden vergeleken met dat van de deelnemers door de fixatiekaarten te vergelijken die zijn verkregen uit de reeks locaties voorspeld door RAM en die gekozen door de deelnemers. Een fxatiekaart wordt berekend door aan elke locatie een waarde toe te kennen die gelijk is aan de frequentie van de selectie ervan, en deze waarden vervolgens te normaliseren om een verdeling over alle locaties te creëren.

Metrieken voor het vergelijken van fixatiekaarten. Voor metrieken die twee fixatiekaarten, P en Q, vergelijken, volgen we 26 nauwgezet. We gebruiken drie op distributie gebaseerde metrieken: KL-divergentie (KL), Pearson-correlatiecoëfficiënt (CC) en Gelijkenis (SIM), om de verdeling van bemonsteringslocaties te vergelijken uit een model met dat van de deelnemers zoals vastgelegd in de verzamelde data.

KL (eerder gedefinieerd) is zeer gevoelig voor nulwaarden.

CC kan de lineaire relatie tussen twee kaarten evalueren als26: CC(P, Q)=σ (P, Q) σ (P)σ (Q), waarbij σ de variantie of covariantie is. Omdat CC symmetrisch is, kan het niet concluderen of verschillen tussen fixatiekaarten te wijten zijn aan valse positieven of valse negatieven.

SIM wordt gemeten als 26: SIM(P, Q)=k min(Pk, Qk), waarbij k Pk=k Qk=1. Net als CC is SIM symmetrisch en erft hetzelfde nadeel. Bovendien is SIM erg gevoelig voor ontbrekende waarden en bestraft het voorspellingen die geen rekening houden met de dichtheid van de grondwaarheid.

Menselijk en dierlijk onderzoek.

De Institutional Review Board van de Universiteit van Memphis heeft vastgesteld dat dit onderzoek niet voldoet aan de Office of Human Subjects Research Protections-definitie van onderzoek op menselijke proefpersonen en dat 45 CFR deel 46 niet van toepassing is. Daarom vereist dit onderzoek geen IRB-goedkeuring of beoordeling.

Experimentele resultaten Data-analyse.

De verzamelde gegevens kunnen worden gevisualiseerd in termen van de volgorde van distributie van geselecteerde locaties (Fig. 3), geselecteerde klassen (Fig. 2) en de duur tussen opeenvolgende afleveringen (Fig. 2). Deze verdelingen zijn zeer vergelijkbaar voor de drie datasets. Voor elk cijfer of alfabet lijkt de verdeling van geselecteerde locaties na de laatste aflevering op de verdeling van de pixelintensiteiten van zijn klasse uit de dataset. De volgorde van de gekozen locaties is echter stochastisch van aard. De klassenverdeling duidt op verwarring tussen categorieën met vergelijkbare structuren in de eerste paar afleveringen wanneer de deelnemers meerdere klassen kiezen. Deze verwarring wordt verminderd als er meer monsters worden genomen. Er is een significante positieve correlatie tussen de mate van verwarring (# geselecteerde klassen/totaal # klassen) en de bemonsteringsduur (zie figuur 4). Als het aantal geselecteerde klassen hoog (laag) is, is de duur tussen opeenvolgende afleveringen hoog (laag). De CC van de reeks locaties die een deelnemer voor een klas selecteert, is niet significant (Tabel 1). Dit wordt verwacht vanwege de interindividuele variabiliteit bij het bemonsteren van statische beelden. Het gemiddelde aantal steekproeven dat een deelnemer nodig heeft om een klasse nauwkeurig te voorspellen, is vrij laag. Gemiddeld zijn er 4,2, 4,7 en 4,9 monsters nodig, wat overeenkomt met 36, 44,1 en 48,1 seconden om respectievelijk MNIST-, EMNIST-afbeeldingen in hoofdletters en kleine letters nauwkeurig te classificeren. De deelnemers bekeken gemiddeld slechts 11,3%, 13,4% en 13,7% van het beeldgebied voor het nauwkeurig classificeren van een afbeelding in cijfers, hoofdletters en kleine letters (zie figuur S2 in het aanvullende materiaal). Deze resultaten benadrukken de efficiëntie van het menselijke visuele redeneersysteem, zij het met een lagere resolutie dan eye-trackinggegevens, maar met minder ruis en variabiliteit. Deze empirische resultaten kunnen nuttig zijn voor het ontwerpen van op aandacht gebaseerde modellen voor toepassingen in de echte wereld. Gedragsvoorspelling. In deze sectie worden de prestaties van ons basismodel geëvalueerd in termen van hoe nauwkeurig het de locatie en de klassenselectie van elke deelnemer kan voorspellen. Omdat onze experimentele resultaten met behulp van de twee opvallendheidsscorefuncties, KL-divergentie en verschil, vrij gelijkaardig zijn, worden de resultaten alleen gerapporteerd met behulp van verschil, tenzij anders vermeld. Klasse voorspelling. De klassevoorspelling en de nauwkeurigheidsevaluatiemethoden ervan worden beschreven in de sectie 'Klassevoorspelling'. De klassevoorspellingsnauwkeurigheid, getoond in figuur 5, wordt berekend over alle klassen voor alle bemonsteringen. De gemiddelde klassevoorspellingsnauwkeurigheid over alle steekproeven en datasets is 74,4% (std. dev. 26,5). Figuren 5a en b laten zien dat de reeks klassen die door de deelnemers en door ons basismodel (vergelijking 2) is geselecteerd, bij de eerste afleveringen behoorlijk onnauwkeurig is en verbetert naarmate het aantal steekproeven toeneemt. Figuur 5c laat zien dat deze twee sets, ct en ˆct, tijdens de eerste afleveringen behoorlijk verschillend zijn; De gelijkenis neemt toe met een toename van het aantal steekproeven. Hetzelfde geldt voor nieuwe klassenselecties (zie figuur 5f). De afwijzingen van klassen zijn echter vergelijkbaar in de eerste afleveringen; de gelijkenis neemt verder toe met meer monsters (zie figuur 5e). Sinds J(st, ˆst)=|(ct ∩ ˆct) − ct−1| |(ct ∪ ˆct) − ct−1| en J(rt, ˆrt)=|ct−1 − (ct ∪ ˆct)| |ct−1 − (ct ∩ ˆct)|, uit figuur 5e, f kan worden afgeleid dat bij de initiële episodes het snijpunt tussen ct−1 en ct ∪ ˆct klein is, wat aangeeft dat aanvankelijk de deelnemers en ons basismodel tussen opeenvolgende afleveringen veel veranderingen aanbrengen in hun klassenselectie. Daarom is het klassenselectieproces aanvankelijk zeer stochastisch. Hoewel er enkele verschillen zijn tussen de klassenvoorspelling van de deelnemers en die van ons model tijdens de eerste afleveringen, worden de gedragingen steeds meer vergelijkbaar naarmate er meer monsters zijn. Tijdens de eerste paar (doorgaans vier tot zeven) episoden worden zeer opvallende delen van een stimulus onthuld. Dit helpt om bij de latere bemonsteringen alleen de juiste klasse te selecteren, wat de voorspellingsnauwkeurigheid vergroot. Omdat er veel klassen zijn waarvan de gemiddelde sjablonen overeenkomen met de waargenomen delen van de stimulus tijdens de eerste paar afleveringen, is het klassenselectieproces aanzienlijk stochastischer, wat leidt tot een lage classificatienauwkeurigheid van zowel de deelnemers als ons model.

Figure 3. Distribution of sampling locations over all participants for each numeral/alphabet class and each sampling episode. Each row corresponds to a class, each column corresponds to a sampling episode which increases from left to right.

Figuur 3. Verdeling van de bemonsteringslocaties over alle deelnemers voor elke cijfer-/alfabetklasse en elke bemonsteringsepisode. Elke rij komt overeen met een klasse, elke kolom komt overeen met een bemonsteringsepisode die van links naar rechts toeneemt.

Locatievoorspelling. De nauwkeurigheid van de locatievoorspelling van ons basismodel (vergelijking 3), gemiddeld over alle bemonsteringen en datasets, is 67,7% (std. dev. 14,1) (ref. figuur 5d). De trend van deze voorspellingsnauwkeurigheid is tegengesteld aan die van klassevoorspellingsnauwkeurigheid. De verklaring blijft echter dezelfde. De nauwkeurigheid van de locatievoorspelling is hoog tijdens de eerste bemonsteringen, omdat tijdens deze afleveringen de zeer opvallende locaties worden geselecteerd, terwijl de minder opvallende locaties in de latere afleveringen worden geselecteerd. Omdat er veel locaties zijn met een lage saillantie, is hun selectieproces zeer stochastisch en daarom moeilijk te voorspellen, wat leidt tot een afname van de voorspellingsnauwkeurigheid bij een toename van het aantal steekproeven. De dalende trend is uniek voor elke dataset (zie figuur 5d), aangezien het aantal klassen en het aantal zeer opvallende locaties die nuttig zijn voor discriminatie tussen datasets varieert. Hoe lager het aantal klassen en zeer opvallende onderscheidende locaties, des te sneller zal de afname van de nauwkeurigheid van locatievoorspellingen plaatsvinden bij een toename van het aantal steekproeven.

imageFigure 4. (Lef) Errorbar plot of time diference (seconds) between consecutive samples averaged over all classes. Tat is, value shown at sampling episode t is the time elapsed between a participant's clicks in image at t − 1 and t. (Right) Errorbar plot of confusion averaged over all classes at each episode. Errorbars indicate std. dev.

Figuur 4. (Links) Errorbar-grafiek van het tijdsverschil (seconden) tussen opeenvolgende monsters, gemiddeld over alle klassen. Dat wil zeggen dat de waarde die wordt weergegeven bij bemonsteringsaflevering t de tijd is die is verstreken tussen de klikken van een deelnemer in de afbeelding op t − 1 en t. (Rechts) Errorbar-plot van verwarring gemiddeld over alle klassen in elke aflevering. Foutbalken geven std aan. ontwikkelaar

Figure 5. Evaluation of our baseline model (ref.

Figuur 5. Evaluatie van ons basismodel (zie sectie "Baseline voor gedragsvoorspelling"). (a) Classificatienauwkeurigheid (volgens) van de deelnemers en (b) die van ons basismodel met feitelijke labels als grondwaarheid. (c) Classificatie-overeenkomst (J(ct, ˆct)), (d) nauwkeurigheid van locatievoorspelling, (e) nauwkeurigheid van klasse-afwijzing en (f) nauwkeurigheid van klasseselectie van ons basismodel met de gegevens van deelnemers als grondwaarheid. Zie het gedeelte 'Gedragsvoorspelling' voor meer informatie.

Table 1. Average Pearson correlation coefficient (corr.) for fxation sequences for the same class. For any fixation, distance is Euclidean and direction is measured as the polar angle with respect to the center of stimuli as the origin. Std. dev. are included in parenthesis.

Tabel 1. Gemiddelde Pearson-correlatiecoëfficiënt (corr.) voor fxatiereeksen voor dezelfde klasse. Voor elke fixatie is de afstand Euclidisch en wordt de richting gemeten als de polaire hoek ten opzichte van het centrum van stimuli als oorsprong. Soa. ontwikkelaar zijn tussen haakjes opgenomen.

Evaluatie van RAM.

Voor elke klasse en bemonstering worden de fixatiekaarten van RAM (we gebruikten de RAM-implementatie van github.com/hehefan/Recurrent-Attention-Model) en de verzamelde gegevens voor dezelfde stimuli gepresenteerd in MTurk vergeleken. Voor een eerlijke vergelijking met de deelnemers hebben we in RAM de reekslengte vastgelegd op T=12, de eerste bemonsteringslocatie in het midden van de afbeelding, de invoerobservatie op een 5×5-patch met de geselecteerde locatie als middelpunt, en wijzigde de beloningsfunctie met Vgl. (1). Te cumulatieve beloning, Rt in Vgl. (4,) wordt vervangen door de cumulatieve score t τ=1 Pτ verkregen uit Vgl. (1). Omdat een deelnemer in elke episode meerdere klassen kan selecteren, beschouwen we voor het RAM-model, in plaats van een enkele klasse te voorspellen op basis van de hoogste waarschijnlijkheid, de gemiddelde waarschijnlijkheid over alle klassen als een drempel en voorspellen we de reeks klassen ct met waarschijnlijkheden groter dan de drempelwaarde. Deze ct wordt gebruikt voor het berekenen van de score met behulp van Vgl. (1). Onder deze omstandigheden heeft RAM 3,7, 8,5 en 7,6 monsters nodig om MNIST-cijfers, hoofdletters en kleine letters EMNIST-alfabetten te herkennen, die respectievelijk overeenkomen met 8,9%, 21,0% en 18,7% van het beeldgebied. In vergelijking met onze deelnemers (zie sectie "Gegevensanalyse") is RAM dus minder efficiënt. Zie Tabel 2. Resultaten van het vergelijken van de fixatiekaarten van RAM en de verzamelde gegevens worden weergegeven in Tabel 3. KL is hoger vanwege de gevoeligheid voor nulwaarden. Dit houdt in dat verschillende locaties door de deelnemers worden bemonsterd, maar niet door RAM. Deze experimenten kunnen worden gebruikt als basis voor het evalueren van locaties die zijn bemonsterd door een aandachtsmodel.

cistanche-Improve memory2

cistanche voordelen - Verbeter het geheugen

Discussies

Het mcAT-paradigma, zoals gebruikt in dit artikel, vertoont bepaalde punten die verschillen van de paradigma's die primair afhankelijk zijn van oogbewegingen en blikken om de mechanismen van objectherkenning te bestuderen. In het laatste geval trekken opvallende delen van de scène eerst de aandacht, gevolgd door saccadische oogbewegingen die de blik naar de opvallende locaties richten27. De blik wordt gestuurd door bottom-up en top-down signalen die, samen met saillantie-informatie, prioriteitskaarten vormen die oogbewegingen begeleiden voor objectherkenning. Omdat deelnemers aan het huidige onderzoek naar de statische beelden keken onder vrije kijkomstandigheden en met voldoende tijd (zes minuten voor T=12-samples), voerden ze waarschijnlijk een reeks saccadische oogbewegingen of visuele redeneringen28 uit om de de afbeelding voordat u op een AOI klikt. Deze oogbewegingen hadden in emAT kunnen worden vastgelegd (met behulp van een eye-tracker), maar niet in mcAT. Deze oogbewegingen worden echter beïnvloed door het afdwalen van de geest. Hoewel mcAT ook wordt beïnvloed door afdwalen van gedachten29, kan het effect afnemen wanneer de deelnemers reageren na visueel redeneren. Omdat oogbewegingen als reactie op een stimulus worden beïnvloed door de taak die voorhanden is30, werden de oogbewegingspatronen van de deelnemers waarschijnlijk beïnvloed door de toegewezen taak in drie stappen bij elke monsterneming (zie de paragraaf 'Visuele taak'). Als er een eyetracker was gebruikt, zouden de oogbewegingen van de deelnemers om het monster te verkennen vermengd zijn met oogbewegingen om op de door hen gekozen klassen te klikken, wat de interpretatie van de visuele verkenning van het monster zou hebben bemoeilijkt. Het klikken op de klas(sen) is een noodzakelijke stap omdat het, zij het introspectief, de voorspelde klas(sen) in de geest van een deelnemer onthult. Het is waarschijnlijk dat de blikken onmiddellijk voor en na de AOI-selectie (misschien ook geholpen door fixerende oogbewegingen)31-het meest hebben bijgedragen aan de cijfer-/alfabetherkenning. We vermoeden dat deelnemers diagnostische gebieden van het beeld hebben geselecteerd om onderscheid te maken tussen klassen, en die gebieden bevatten waarschijnlijk een combinatie van bottom-up (bijvoorbeeld visueel contrast) en top-down (cijfer/alfabetsjabloon) diagnostische informatie. Dit komt overeen met onze bevinding dat deelnemers snel (gemiddeld binnen vijf monsters) onderscheid maakten tussen stimulusklassen, ogenschijnlijk door diagnostische patches te selecteren.

Table 2. Comparison of efficiency between our participants and the RAM model in terms of the average number of samples required to recognize a numeral/alphabet. The percentage of the image area observed is included in parentheses.

Tabel 2. Vergelijking van de efficiëntie tussen onze deelnemers en het RAM-model in termen van het gemiddelde aantal monsters dat nodig is om een cijfer/alfabet te herkennen. Het percentage van het waargenomen beeldgebied staat tussen haakjes.

Table 3. Evaluation of fixation maps from RAM for the stimuli presented in the MTurk experiments averaged over all classes and samplings. Std. dev. are included in parenthesis.

Tabel 3. Evaluatie van fixatiekaarten van RAM voor de stimuli gepresenteerd in de MTurk-experimenten, gemiddeld over alle klassen en steekproeven. Soa. ontwikkelaar zijn tussen haakjes opgenomen.

Conclusies

We hebben een mcAT-dataset geïntroduceerd voor het herkennen van handgeschreven cijfers en alfabetten via sequentiële sampling. De gegevens zijn verzameld van 382 deelnemers die beelden kregen aangeboden die waren geselecteerd uit benchmarkdatasets (MNIST, EMNIST). Gemiddeld worden 169,1 antwoorden per cijfer-/alfabetklasse geregistreerd. De gegevens worden rigoureus geanalyseerd om de efficiëntie van menselijke visuele herkenning te onthullen. De deelnemers observeerden slechts 12,8% van een afbeelding voor herkenning. We hebben een basismodel voorgesteld om de locatie en klasse(n) te voorspellen die een deelnemer bij de volgende bemonstering zou selecteren. We hebben laten zien hoe onze experimentele omstandigheden en gegevens kunnen worden gebruikt om een op aandacht gebaseerd versterkingsmodel te evalueren in vergelijking met menselijke prestaties. Deze mcAT-dataset, met meerdere voordelen ten opzichte van eye-tracking-gegevens, vult een cruciale leemte in op aandacht gebaseerd modelonderzoek op AI, ML en andere gebieden.

Referenties

1. Ranzato, MA Over leren waar je moet kijken. arXiv: 1405.5488, (2014).

2. Ba, J., Salakhutdinov, RR, Grosse, RB, & Frey, BJ Leren van terugkerende aandachtsmodellen voor wakker en slapen. In NIPS, 2593–2601 (2015).

3. Mnih, V. et al. Terugkerende modellen van visuele aandacht. In NIPS, 2204–2212 (2014).

4. Ba, J., Mnih, V., & Kavukcuoglu, K. Meerdere objectherkenning met visuele aandacht. arXiv:1412.7755 (2014).

5. Dutta, JK & Banerjee, B. Variatie in classificatienauwkeurigheid met aantal glimpen. In IJCNN, 447–453 (IEEE, 2017).

6. Larochelle, H. & Hinton, GE Leren foveale glimpen te combineren met een Boltzmann-machine van de derde orde. In NIPS, 1243–1251 (2010).

7. Elsayed, G., Kornblith, S. & Le, QV Saccader: Verbetering van de nauwkeurigheid van harde-aandachtsmodellen voor zicht. In NIPS, 702–714 (2019).

8. van Beers, RJ Te bronnen van variabiliteit in saccadische oogbewegingen. J. Neurosci. 27(33), 8757-8770 (2007).

9. Itti, L. & Baldi, P. Bayesiaanse verrassing trekt menselijke aandacht. Vis. Res. 49(10), 1295–1306 (2009).

10. Egner, S. et al. Aandacht en informatieverwerving: vergelijking van muisklikken met aandachtsregistratie van oogbewegingen. J. Eye Mov. Res. 11(6), (2018).

11. Peterson, MS, Kramer, AF & Irwin, DE heimelijke verschuivingen van aandacht gaan vooraf aan onvrijwillige oogbewegingen. Waarnemen. Psychofieën. 66(3), 398-405 (2004).

12. Jiang, M. et al. Silicium: saillantie in context. In CVPR, 1072–1080 (2015).

13. Kim, NW et al. BubbleView: een interface voor het crowdsourcen van kaarten met de belangrijkheid van afbeeldingen en het volgen van visuele aandacht. ACM Trans. Computer. Brommen. Interactie. 24(5), 1–40 (2017).

14. Sermanet, P., Frome, A. & Real, E. Aandacht voor fijnmazige categorisering. arXiv:1412.7054 (2014).

15. Egner, S., Itti, L. & Scheier, C. Aandachtsmodellen vergelijken met verschillende soorten gedragsgegevens. Onderzoek. Oftalmol. Vis. Wetenschap 41(4), S39 (2000).

16. Navalpakkam, V. et al. Meting en modellering van oog-muisgedrag in de aanwezigheid van niet-lineaire pagina-indelingen. In Proc. Int. Conf. WWW, 953–964 (2013).

17. Matzen, LE, Stites, MC & Gastelum, ZN Onderzoek naar visueel zoeken zonder eye-tracker: een beoordeling van kunstmatige foveatie. Kogn. Res. Prins. Impliciet. 6(1), 1–22 (2021).

18. Tafi, AP et al. OCR als een service: een experimentele evaluatie van Google Docs OCR, Tesseract, ABBYY FineReader en Transym. In Int. Symp. Vis. Computer, 735–746 (Springer, 2016).

19. Memon, J., Sami, M., Khan, RA & Uddin, M. Handgeschreven optische karakterherkenning (OCR): een uitgebreid systematisch literatuuronderzoek (SLR). IEEE-toegang 8, 142642–142668 (2020).

20. Chaudhuri, A., Mandaviya, K., Badelia, P. & Ghosh, SK Optische karakterherkenningssystemen. In optische karakterherkenningssystemen voor verschillende talen met Sof Computing, 9–41 (Springer, 2017).

21. LeCun, Y. et al. Gradiëntgebaseerd leren toegepast op documentherkenning. Proc. IEEE 86(11), 2278–2324 (1998).

22. Cohen, G., Afshar, S., Tapson, J. & van Schaik, A. EMNIST: Een uitbreiding van MNIST naar handgeschreven brieven. arXiv:1702.05373, (2017).

23. Gregor, K., Danihelka, I., Graves, A., Rezende, D. & Wierstra, D. DRAW: Een terugkerend neuraal netwerk voor het genereren van afbeeldingen. In ICML, 1462–1471 (2015).

24. Friston, K. Te vrije energieprincipe: een ruwe gids voor de hersenen?. Trends Cogn. Wetenschap 13(7), 293–301 (2009).

25. Mirza, MB, Adams, RA, Friston, K. & Parr, T. Introductie van een Bayesiaans model van selectieve aandacht gebaseerd op actieve gevolgtrekking. Wetenschap Rep. 9(1), 1–22 (2019).

26. Bylinskii, Z., Judd, T., Oliva, A., Torralba, A. & Durand, F. Wat vertellen verschillende evaluatiestatistieken ons over saliency-modellen? IEEE Trans. Patroon Anale. Mach. Intel. 41(3), 740-757 (2018).

27. Itti, L. & Koch, C. Computationele modellering van visuele aandacht. Nat. Ds. Neurosci. 2(3), 194–203 (2001).

28. Lamme, VAF Visuele functies die bewust zien genereren. Voorkant. Psychol., 11, (2020).

29. da Silva, MRD & Postma, M. Dwalende geesten, dwalende muizen: het volgen van computermuizen als een methode om dwalende gedachten te detecteren. Computer. Brommen. Gedrag 112, 106453 (2020).

30. Schütz, AC, Braun, DI & Gegenfurtner, KR Oogbewegingen en perceptie: een selectieve beoordeling. J. Vis. 11(5), 9–9 (2011).

31. Intoy, J. & Rucci, M. Fijn afgestemde oogbewegingen verbeteren de gezichtsscherpte. Nat. Gemeenschappelijk. 11(1), 1–11 (2020).

Wat is beschermende immuniteit na vaccinatie tegen gele koorts? Deel 1

Bevolkingsimmuniteit tegen COVID-19 in de Verenigde Staten, deel 2

AttentionMNIST: een gegevensset voor het bijhouden van de aandacht van een muisklik voor handgeschreven cijfer- en alfabetherkenning

Misschien vind je dit ook leuk

Aanvraag sturen

Kennis

AttentionMNIST: een gegevensset voor het bijhouden van de aandacht van een muisklik voor handgeschreven cijfer- en alfabetherkenning

Misschien vind je dit ook leuk

Aanvraag sturen