Er is een grote sprong voorwaarts in kunstmatige intelligentie: GPT-4o. Dit nieuwe topmodel maakt het mogelijk om real-time te redeneren over audio, visie en tekst. Met de “o” van “omni” belooft GPT-4o een veel natuurlijker interactie tussen mensen en computers te brengen. Het kan verschillende combinaties van tekst, audio en afbeeldingen accepteren en produceren als output.

Wat GPT-4o echt bijzonder maakt, is dat het extreem snel reageert op geluidsinvoer, met een gemiddelde reactietijd van slechts 320 milliseconden – vergelijkbaar met hoe snel mensen in een gesprek reageren. Het presteert op het niveau van GPT-4 Turbo voor Engelse tekst en code, en zelfs nog beter voor andere talen. En het beste van alles, het is veel goedkoper om te gebruiken.

Een van de opvallende kenmerken van GPT-4o is zijn verbeterde begrip van visuele en auditieve informatie. In tegenstelling tot eerdere modellen die afhankelijk waren van aparte systemen voor spraakinvoer, is GPT-4o getraind om alle soorten informatie te begrijpen, wat zorgt voor een diepgaander inzicht.

GPT-4o verbetert ook de Voice Mode aanzienlijk, met veel kortere wachttijden. Dit komt doordat GPT-4o alles in één model integreert, waardoor er minder informatie verloren gaat.

Het stelt ook nieuwe normen op het gebied van prestaties, met uitstekende resultaten in verschillende taken en betere veiligheidsmaatregelen om verantwoorde interacties te waarborgen.

GPT-4o wordt nu geïmplementeerd in ChatGPT, beschikbaar voor alle gebruikers. Ontwikkelaars hebben ook toegang tot GPT-4o via de API, met ongekende snelheid en betaalbaarheid.

Dit is echt een mijlpaal in de evolutie van AI, en we zijn enthousiast om te zien hoe dit krachtige nieuwe instrument de toekomst van technologie zal beïnvloeden.

Lees er alles over in de blogpost van OpenAI