Efficiënte langetermijngeheugengebaseerde sentimentanalyse van e-commercerecensies, deel 2
Jan 18, 2024
Mohammed et al. [20] presenteerde een model voor sentimentanalyse door word2vec en LSTM te gebruiken voor hotelbeoordelingen.
Mohammed is de profeet en grondlegger van de islam. Hij staat bekend als een wijze, wijze en wijze man. Zijn geheugen is zeer krachtig, waardoor hij zeer effectief is in het verwerken van informatie en het uiten van zijn gedachten.
Mohammeds herinnering heeft veel te maken met zijn opleiding en ervaring. Volgens gegevens was hij in zijn jeugd vaak ondergedompeld in denken en reflecteren. Deze nieuwsgierigheid en honger naar kennis hielpen hem een sterke kennisbasis en geheugenvermogen op te bouwen.
Bovendien speelde Mohammeds intelligentie ook een grote rol in zijn geheugenvermogen. Hij is slim, geestig, inzichtelijk en heeft een logisch denkvermogen, wat erg handig is bij het omgaan met complexe informatie. Dit voordeel hielp hem het geheugenproces beter te beheren en te controleren, waardoor zijn geheugen verbeterde.
Mohammeds geheugen was echter niet aangeboren, maar werd verbeterd door hard werken en oefenen. Hij voert vaak geheugentraining uit, zoals herhaald lezen, dicteren en spreken, om hem te helpen kennis dieper te begrijpen en te beheersen.
Mohammeds geheugen was niet alleen een natuurlijk talent, het werd verbeterd door hard werken en oefenen. Dit laat zien dat ieder van ons ons geheugen kan verbeteren en onze leer- en werkefficiëntie kan verbeteren door te leren en te oefenen. Laten wij, net als Mohammed, actief hard werken om onze geheugenvaardigheden voortdurend te verbeteren, om meer succes te behalen in het leven en op het werk! Het is duidelijk dat we het geheugen moeten verbeteren, en Cistanche deserticola kan het geheugen aanzienlijk verbeteren, omdat Cistanche deserticola ook de balans van neurotransmitters kan reguleren, zoals het verhogen van de niveaus van acetylcholine en groeifactoren. Deze stoffen zijn erg belangrijk voor het geheugen en het leren. Bovendien kan Vlees ook de bloedstroom verbeteren en de zuurstoftoevoer bevorderen, wat ervoor kan zorgen dat de hersenen voldoende voedingsstoffen en energie ontvangen, waardoor de vitaliteit en het uithoudingsvermogen van de hersenen worden verbeterd.

Klik op Know om het kortetermijngeheugen te verbeteren
Voor dit onderzoek zijn de gegevens verzameld door de reiswebsite te crawlen met behulp van selenium en schroot. +e Het belangrijkste doel van dit experiment was het analyseren van de nauwkeurigheid door de parameters van word2vec en LSTM te veranderen. +e resultaten toonden aan dat de gemiddelde nauwkeurigheid van 85,96 kon worden bereikt met behulp van de parameters, wat veelbelovende resultaten opleverde.
Zhao et al. [21] introduceerde een nieuwe techniek om de gevoelens van klanten te analyseren op basis van recensies op e-commercewebsites. De voorgestelde geoptimaliseerde techniek "het op LocalSearch Improvised Bat Algorithm gebaseerde Elman NeuralNetwork (LSIBA-ENN)" omvat vier stappen en detecteert de polariteit en classificeert de gevoelens van de recensies. +e-gegevens voor dit onderzoek zijn verzameld door de webscrappingtool op e-commercewebsites te gebruiken om klantrecensies te extraheren.
Naast het voorbewerken van de gegevens, maakt dit onderzoek gebruik van "LogTerm Frequency-based Modified Inverse Class Frequency (LTF-MICF) en Hybrid Mutation based Earth Warm Algorithm (HMEWA)" voor termweging en selectie van kenmerken. +e voorgestelde methodologie was andere basislijntechnieken te slim af in termen van voorspellingsnauwkeurigheid.
Jiang [22] stelde een model voor om de gevoelens van beoordelingen verkregen van het e-commerceplatform Taobao te classificeren. Het onderzoek maakt gebruik van het machine learning-algoritme en ondersteunt vectormachines voor classificatie en verbeterde deeltjeszwermoptimalisatie (IPSO) om de parameters te optimaliseren. De +e-gegevens voor het onderzoek zijn verzameld door de opmerkingen van de website te doorzoeken. +e experimentele resultaten toonden aan dat de gecombineerde aanpak van SVM en IPSO een grotere nauwkeurigheid had. Het merendeel van de bestaande modellen heeft echter te kampen met overfitting [23–25], slechte convergentiesnelheid [26–28] en verdwijnende gradiëntproblemen[29–31].
3. Experimenteel onderzoek
De +is-sectie geeft een duidelijk overzicht van de methodologie die in het project wordt gebruikt voor de classificatie van sentiment. De +e techniek die is gebruikt is een Long Short-Term Memory-netwerk, dat wordt gebruikt om een groot aantal Amazondatabase-recensies te classificeren. + De gebruikte inbedding is word2vec, dat op maat is getraind volgens de database.
Door het woord2vec af te stemmen op de dataset, worden de algehele prestaties van het model verbeterd. Het voordeel van het gebruik van LSTM is dat het betere resultaten oplevert, zelfs voor de ongestructureerde beoordelingsgegevens. Het kan nuttige functionaliteit verkrijgen voor bronnen die afhankelijk zijn van de lange termijn.
+e-gegevens worden verzameld uit de Amazon-beoordelingsdataset, die vervolgens wordt voorbewerkt. Word2vec-inbedding vormt een belangrijke stap in de voorverwerking van de gegevens. Er zijn trein- en testgegevens aangemaakt. +e trainingsgegevens worden opgesplitst in trein- en validatiegegevenssets. +Het aangepaste word2vec-model wordt per database getraind. Er wordt +e kenmerkvector verkregen, die vervolgens wordt gebruikt als de inbeddingslaag voor het LSTM-model.
Keras wordt gebruikt voor het bouwen van het LSTM-sequentiële model met maxfeatures gelijk aan 50,000 en inbeddingsgrootte gelijk aan 16. +emodel wordt vervolgens getraind voor 10 tijdperken. +e-model is getest op basis van sklearn-prestatiestatistieken. Het proces voor het verkrijgen van kenmerken wordt weergegeven in figuur 2.
3.1. Gegevensset. Om nauwkeurige resultaten te genereren, moet de gebruikte dataset groot en verrijkt zijn. +e-dataset is verzameld uit de sectie mobiele telefoons en accessoires online van de Amazon Reviews-dataset (2018). +e dataset bestaat uit in totaal 938.261 beoordelingen, waarvan 47901 unieke producten en 153124 unieke gebruikersrecensies. +e dataset bestaat aanvankelijk uit 7 kolommen, namelijk een beoordeling die varieert van 1 tot 5, beoordelingstijd, reviewer-ID, product-ID en samenvatting van de recensietekst.
Nadat de duplicaten zijn verwijderd, bestaat de dataset uit 938254 records, en tabel 2 toont een fragment van de originele datasetrecords.
3.2. Methodologie. We hebben ons word2vecmodel op maat getraind voor gebruik met het LSTM-model voor classificatie. Word2vec is een woordinbedding die wordt gebruikt om een woord weer te geven door een verzameling van verschillende termen van een vector. Het gaat erom een woord in een vectorruimte in kaart te brengen. +e-dataset wordt in een panda-dataframe geladen. Voor het ontwikkelen van een customword2vec-model is de eerste stap het voorbewerken van gegevens.
We kijken alleen naar de beoordelings- en recensietekst en laten al het andere vallen. +e tekst wordt opgeschoond door de interpunctie te verwijderen. Er wordt een subvoorbeeld van de tekst gemaakt op basis van bijna 200000 recensies, en de schone-tekstmethode wordt toegepast om elke recensie om te zetten in een lijst met woorden. +is lijst met woorden fungeert nu als invoer voor het genisme word2vec-model.
We hebben een op maat getraind woord2vec-model voor het overslaan van grammen gebouwd en het model geïnstantieerd met afmetingen: de grootte van woordvectoren is 100, venstergrootte gelijk aan 15, min_telt 2 voor woorden die minder dan 2 keer voorkomen in ons corpus, negatief gelijk aan 5, en bemonsteringsfrequentie gelijk aan 1e−5. We hebben al deze dimensies gebruikt om een woordenschat op te bouwen uit onze herhalingszinnen.

We trainen ons word2vec-model voor 1000 tijdperken. +nl we berekenen het verlies voor elk tijdperk. Het +e-verlies is in het begin hoog en neemt af in de richting van het laatste tijdperk. + Het verlies in tijdperk 0 is 2239394,0 en het verlies in tijdperk 1000 is 11504,0. Het opgeslagen model wordt vervolgens opnieuw geladen en er worden bewerkingen op uitgevoerd.
Als we bijvoorbeeld woorden willen vinden die lijken op ruis in onze dataset, krijgen we annulering en een hoofdtelefoon.
Op dezelfde manier kunnen we ook de overeenkomst vinden tussen bepaalde woorden, zoals oortelefoons en hoofdtelefoons, namelijk {{0}}.48756, en de overeenkomst tussen de woorden lading en oplader is 0,89264.
Om de dimensies van onze gegevens te verkleinen, hebben we TSNE-visualisatie gebruikt om de gegevens in twee dimensies uit te zetten. Deze woordvectoren kunnen nu worden gebruikt voor verdere classificatie. +ese-insluitingen worden vervolgens gebruikt als functies voor verdere streaming.
3.2.1. Gegevensvoorbereiding voor LSTM. Onze dataset bestaat uit 938254 records waarbij de meeste recensies een scoreverdeling van meer dan 3 hebben. We hebben eerst het aantal woorden voor elke recensie berekend. +e gemiddelde gemiddelde wordt gebruikt als statistieken om de gemiddelde lengte van beoordelingen te vinden. +e gemiddelde lengte van de recensie is 44,59 en de maximale lengte is 4303.
We hebben een dataset gemaakt die bestaat uit recensies van maximaal 100 woorden. Recensies waarvan de lengte meer dan 20 maar minder dan 100 bedraagt, worden gecategoriseerd onder korte recensies en de rest wordt gecategoriseerd onder lange recensies. Het aantal korte beoordelingen is 411313 en het aantal lange beoordelingen is 100239. De in het model gebruikte hyperparameters worden beschreven in Tabel 3.
Vervolgens hebben we de sentimentbeoordeling als positief gedefinieerd als de beoordeling groter is dan of gelijk is aan 3; anders is de beoordeling negatief. We hebben rekening gehouden met de recensietekst en het sentiment voor het maken van de treingegevensset. +e testgegevens bestaan uit producten met minimaal meer dan 10 beoordelingen.
Na distributie bestond de trainingsdataset uit in totaal 203891 records, waarvan 175910 tot de positieve klasse behoorden en 27981 tot de negatieve klasse. De testgegevensset bestond in totaal uit 686345 records, waarvan 592118 tot de positieve en 94227 tot de negatieve klasse behoorden.
In dit onderzoek hebben we Keras gebruikt om ons LSTM-model te bouwen, dat maximaal 50000 features als invoer voor de inbeddingslaag gebruikt. Het lange-kortetermijngeheugen (LSTM) is een soort terugkerend neuraal netwerk dat gebruik maakt van een intern mechanisme dat de informatiestroom reguleert. Dit interne mechanisme bestaat uit poorten die zo moeten worden getraind dat ze irrelevante informatie nauwkeurig kunnen filteren en nuttige informatie kunnen vasthouden.

Figuur 3 toont de basisarchitectuur van het LSTM-model in onze voorgestelde methodologie.
Ht−1 en Xt zijn de inputs voor de LSTM-eenheid; Ht−1, gewoonlijk kortetermijngeheugen genoemd, neemt de output uit de voorgaande toestanden als input. +e geheugencel of het langetermijngeheugen, Ct −1, helpt bij het transporteren van relevante informatie gedurende het hele proces van een reeks. +eLSTM-architectuur combineert drie poorten: vergeetpoort, inputgate en outputpoort. In de LSTM-eenheid worden tanh- en sigmoïdefuncties gebruikt om deze poorten te verkrijgen.
+e treingegevens werden vervolgens opgesplitst in trein- en validatiegegevens van gelijke lengte. +e lengte van de gegevens werd berekend op 101945 en de klassenverdeling was {1: 87955, 0:13990}. Om de TensorFlow-treintest- en validatiegegevenssets te maken, moeten we onze treingegevens omzetten in reeksen. We hebben ze opgevuld tot een maximale lengte van 100, zodat alle reeksen dezelfde lengte hebben. +e trein- en testlabels

For more information:1950477648nn@gmail.com






