Hoe wordt Chat GPT getraind?

hoe-wordt-chat-gpt-getraind-768x435-718x.jpg

Als je bekend bent met ChatGPT, heb je misschien gehoord dat het getraind is op een uitgebreid corpus van gegevens. Maar wat betekent dit precies? In dit artikel zullen we ingaan op de details van hoe ChatGPT wordt getraind."

ChatGPT is een voorgeleerd taalmodel dat is aangepast door middel van een combinatie van begeleide en versterkende leertechnieken. Het trainingsproces van ChatGPT omvatte het invoeren van een grote hoeveelheid tekstgegevens in het model en het aanpassen van de parameters zodat het tekst kan genereren die vergelijkbaar is met de tekst in het trainingscorpus.

Voor dit proces is de ongesuperviseerde leeraanpak gebruikt, wat betekent dat het model geen expliciete feedback kreeg over de juistheid van de gegenereerde tekst. In plaats daarvan past het model zijn parameters aan op basis van de waarschijnlijkheid dat de gegenereerde tekst lijkt op de tekst in het trainingscorpus.

GPT-3, het oudermodel van ChatGPT-3, is een van de grootste taalmodellen ooit gemaakt, met 175 miljard parameters en een context van 2048 tokens lang. Het is getraind op honderden miljarden woorden uit Common Crawl, WebText2, Books1/2, Wikipedia in het Engels, en voorbeelden van code in CSS, JSX, Python en andere programmeertalen.

De trainingsmethode die wordt gebruikt voor GPT-3 is generatieve vooraftraining, wat betekent dat het is getraind om het volgende token of woord in de invoerzin te voorspellen.

Beste Chat GPT-alternatief

Begeleid leren

De ChatGPT-model is geoptimaliseerd via een proces van begeleid leren door menselijke trainers. Deze trainers engageerden zich in gesprekken, waarbij ze zowel de rol van de gebruiker als de AI-assistent op zich namen.

Ze kregen suggesties van het model om hen te begeleiden bij het samenstellen van hun reacties, die vervolgens werden gemengd met de InstructGPT-dataset die was omgezet in een dialoogformaat.

Versterkend leren

Het model werd verder verbeterd door middel van reinforcement learning met behulp van Proximal Policy Optimization (PPO). Menselijke trainers evalueerden de antwoorden die door het model werden gegenereerd uit een eerdere conversatie en gebruikten die evaluaties om beloningsmodellen te ontwikkelen. Het model werd vervolgens verfijnd op basis van deze beloningsmodellen.

Het finetunen proces werd meerdere malen uitgevoerd om betere prestaties te behalen. PPO-algoritmen zijn kosteneffectief vergeleken met andere algoritmen en hebben snellere prestaties, waardoor ze ideaal zijn voor dit proces. 

OpenAI blijft informatie verzamelen van gebruikers die in contact komen met ChatGPT, dit kan worden gebruikt om het model verder te verbeteren en te verfijnen.

Gebruikers hebben de optie om te stemmen op de antwoorden van ChatGPT door het geven van duimpjes omhoog of omlaag, en ze hebben ook de mogelijkheid om extra feedback te geven. Deze gegevens worden gebruikt om de prestaties van het model verder te verbeteren en het beter te maken in het genereren van mensachtige tekst.

Gegevens gebruikt om het model te trainen

ChatGPT-3 is een taalmodel dat fijnafgesteld is van de GPT-3.5 serie, welke getraind is met behulp van een Azure AI-supercomputing infrastructuur. Het is getraind met een enorme hoeveelheid tekst afkomstig van het internet, waaronder boeken, chatforums, artikelen, websites, academische papers, code en andere bronnen.

Het corpus van tekstdatabestanden dat wordt gebruikt om ChatGPT-3 te trainen, is meer dan 45 terabyte groot, wat extreem groot is en bijdraagt ​​aan het vermogen van het model om teksten te genereren die vergelijkbaar zijn met wat een journalist of auteur zou produceren.

Gerelateerde artikelen

Bekijk meer >>