Luonnollinen keskustelu tekoälyn kanssa – GPT-4o ilmestyi

Markku Korhonen
| 4 min read

GPT-4o kuvituskuvassa iso kosketusnäyttö, jota mies koskettelee.

OpenAI-tekoäly-yhtiön uusi lanseeraus GPT-4o on yhtiön askel kohti luonnollisempaa ihmisen ja tietokoneen välistä vuorovaikutusta.

GPT-4o hyväksyy syötteenä minkä tahansa tekstin, äänen ja kuvan yhdistelmän ja tuottaa minkä tahansa tekstin, äänen ja kuvan yhdistelmän. Uudessa tekoälymallissa o-kirjain tarkoittaa omnia, yhtiö kertoo verkkosivuillaan. Omni on latinaa ja suomennettuna se tarkoittaa “kaikki”.

“GPT-4o on viimeisin askel syvällisen oppimisen rajojen pidentämisessä, tällä kertaa käytännön käytettävyyden suuntaan. Viimeisten kahden vuoden aikana olemme käyttäneet paljon aikaa tehokkuuden parantamiseen pinojen jokaisella tasolla.

Tämän tutkimuksen ensimmäisenä hedelmänä pystymme tarjoamaan GPT-4-tason mallin paljon laajemmin saataville. GPT-4o:n ominaisuudet otetaan käyttöön iteratiivisesti”, yhtiö kirjoittaa sivuillaan.

SKILLING mainosbanneri CTA

GPT-4o:n uudet ominaisuudet


Uudet ääniominaisuudet mahdollistavat sen, että käyttäjät voivat puhua ChatGPT:lle ja saada reaaliaikaisia vastauksia ilman viivettä sekä keskeyttää ChatGPT:n sen puhuessa, jotka molemmat ovat realististen keskustelujen tunnusmerkkejä, joita tekoälyn ääniavustajat ovat pitäneet haastavina, OpenAI:n tutkijat osoittivat livestream-tapahtumassa.

GPT-4o pystyy vastaamaan audiosyötteisiin parhaimmillaan 232 millisekunnissa ja keskimäärin 320 millisekunnissa, mikä vastaa ihmisen vastausaikaa keskustelussa.

Se vastaa GPT-4 Turbon suorituskykyä englanninkielisessä ja koodikielisessä tekstissä, ja se on huomattavasti parempi muulla kuin englanninkielisellä tekstillä. Se on myös paljon nopeampi ja 50 prosenttia halvempi API:ssa. GPT-4o on erityisen paljon parempi näkö- ja ääniymmärryksessä nykyisiin malleihin verrattuna.

Kuin puhuisi ihmisen kanssa, sanoo Sam Altman


“Uusi puhe- (ja video-) tila on paras koskaan käyttämäni tietokoneen käyttöliittymä. Se tuntuu kuin elokuvien tekoälyltä, ja minulle on edelleen hieman yllättävää, että se on todellinen. Ihmistason vasteaikojen ja ilmaisukyvyn saavuttaminen on suuri muutos”, OpenAI:n toimitusjohtaja Sam Altman hehkuttaa omassa blogissaan.

GPT-4o:n teksti- ja kuvaominaisuuksia aletaan ottaa käyttöön tänään ChatGPT:ssä. Tarjolla on GPT-4o:n ilmaisen tason ja Plus-käyttäjille jopa 5 kertaa korkeammat viestimäärät. Lähiviikkoina käyttöön otetaan uusi versio Voice Mode -tilasta, jossa GPT-4o on alfa-versiossa ChatGPT Plussassa.

Kehittäjät voivat nyt myös käyttää GPT-4o:ta API:ssa teksti- ja visuaalisena mallina. GPT-4o on 2x nopeampi, puolet halvempi ja siinä on 5x korkeammat nopeusrajat kuin GPT-4 Turbossa. Yritys suunnittelee GPT-4o:n uusien ääni- ja video-ominaisuuksien tuen käyttöönottoa API:ssa pienelle joukolle luotettavia kumppaneita tulevina viikkoina.

Tekoäly “punastui”


Microsoftin tukema OpenAI kohtaa kasvavaa kilpailua ja paineita laajentaa ChatGPT:n, sen suositun chatbot-tuotteen, käyttäjäkuntaa. ChatGPT ihastutti maailmaa kyvyllään tuottaa ihmisen kaltaista kirjallista sisältöä ja huippuluokan ohjelmistokoodia.

Livestream-tapahtumassa OpenAI:n tutkijat esittelivät GPT-4o:n uusia puheavustajan ominaisuuksia. Eräässä demossa ChatGPT käytti näkö- ja ääniominaisuuksiaan puhuakseen tutkijalle matemaattisen yhtälön ratkaisemisen paperilla.

Toisessa esittelyssä tutkijat osoittivat GPT-4o-mallin kykyä reaaliaikaiseen kielenkääntämiseen.
OpenAI:n demonstraatiot lähentelivät tieteiskirjallisuutta, kirjoittaa uutistoimisto Reuters.

ChatGPT ja sen keskustelukumppani kävivät yhdessä vaiheessa kiusoittelevaa pilailua. OpenAI:n tutkija kertoi chatbotille olevansa hyvällä tuulella, koska tämä oli osoittamassa, “kuinka hyödyllinen ja hämmästyttävä sinä olet”.

ChatGPT vastasi: “Voi lopeta! Saat minut punastumaan!”

Altman kirjoitti viestipalvelu X:ssä demon jälkeen “her”, mikä näytti olevan viittaus Spike Jonzen vuoden 2013 elokuvaan, joka kertoo miehestä, joka rakastuu tekoälyavustajaansa, jonka äänenä on Scarlett Johansson.

GPT-4o tulee saataville lähiviikkoina


OpenAI:n teknologiajohtaja Mira Murati sanoi tilaisuudessa, että uutta mallia tarjotaan ilmaiseksi, koska se on kustannustehokkaampi kuin yhtiön aiemmat mallit.

GPT-4o:n maksullisilla käyttäjillä on hänen mukaansa suuremmat kapasiteettirajat kuin yhtiön ilmaiskäyttäjillä. GPT-4o-malli tulee saataville ChatGPT:hen lähiviikkoina, yhtiö kertoi.

Lisäksi ilmaisilla ChatGPT-käyttäjillä on nyt käytössään “selaus”-ominaisuus, jonka avulla ChatGPT voi näyttää ajantasaista tietoa verkosta, Murati kertoi Reutersille tapahtuman jälkeen. Yhtiö ei aio ansaita rahaa ilmaiskäyttäjillä myymällä mainoksia, Murati sanoi.

Pian vuoden 2022 lopulla tapahtuneen lanseerauksen jälkeen ChatGPT:tä kutsuttiin nopeimmaksi sovellukseksi, joka on saavuttanut 100 miljoonaa aktiivista käyttäjää kuukaudessa. ChatGPT:n verkkosivuston maailmanlaajuinen liikenne on kuitenkin ollut viimeisen vuoden aikana vuoristorataa, ja se on vasta nyt palaamassa toukokuun 2023 huipputasolleen, analyytikkofirma Similarwebin mukaan, avaa uusi välilehti.

OpenAI teki ilmoitukset päivää ennen kuin Googlen emoyhtiön Alphabetin on tarkoitus pitää vuotuinen Google-kehittäjäkonferenssi.

Yhtiön odotetaan esittelevän omia uusia tekoälyyn liittyviä ominaisuuksiaan. Reuters kertoi viime viikolla lähteisiinsä vedoten, että OpenAI aikoi julkistaa tekoälyllä toimivan hakutuotteen. Yhtiö päätti kuitenkin lykätä hakutuotteen julkistusta, kertoo eräs asiaan perehtynyt lähde.

Ellipal lompakot

Onko GPT-4o uusi malli turvallinen


OpenAI:n mukaan ChatGPT:n uusimpaan malliin on sisäänrakennettu turvallisuus eri modaliteettien välillä. Näin on tehty esimerkiksi suodattamalla harjoitusdataa ja tarkentamalla mallin käyttäytymistä jälkiharjoittelun avulla.

“Olemme myös luoneet uusia turvajärjestelmiä, jotka suojaavat äänilähtöjä”, yhtiö kertoo sivuillaan.

OpenAI kertoo arvioineensa GPT-4o:ta valmiuskehyksensä ja vapaaehtoisten sitoumustensa mukaisesti.

“Kyberturvallisuutta, CBRN:ää, vakuuttamista ja mallin itsenäisyyttä koskevat arvioinnit osoittavat, että GPT-4o ei saa yhdessäkään näistä luokista yli keskisuurta riskiä. Arviointiin sisältyi joukko automaattisia ja inhimillisiä arviointeja koko mallin koulutusprosessin ajan.

Testasimme mallin versioita ennen ja jälkeen turvallisuusriskien lieventämisen käyttämällä mukautettuja hienosäätöjä ja kehotuksia, jotta mallin valmiudet saataisiin paremmin esiin”, yhtiön sivuilla kerrotaan.

Uusi malli on OpenAI:n mukaan myös käynyt läpi laajan ulkoisen arvion, jossa on ollut mukana yli 70 ulkopuolista asiantuntijaa. Mukana on ollut asiantuntijoita esimerkiksi sosiaalipsykologian, puolueellisuuden ja oikeudenmukaisuuden sekä disinformaation aloilta.

OpenAI kertoo näin pyrkineensä tunnistaa riskit, joita uudet lisätyt modaliteetit tuovat mukanaan tai vahvistavat niitä.

“Näiden kokemusten perusteella kehitimme turvallisuustoimenpiteitä, joilla parannetaan GPT-4o:n kanssa käytävän vuorovaikutuksen turvallisuutta. Jatkamme uusien riskien lieventämistä sitä mukaa, kun niitä havaitaan”, yhtiö sanoo.

“Tunnustamme, että GPT-4on äänimodaalit aiheuttavat erilaisia uusia riskejä. Julkaisemme tänään julkisesti teksti- ja kuvasyötteet sekä tekstitulosteet. Tulevien viikkojen ja kuukausien aikana työstämme teknistä infrastruktuuria, käytettävyyttä jälkikoulutuksen avulla ja turvallisuutta, joita tarvitaan muiden modaliteettien julkaisemiseen”, yhtiö kertoo.

Esimerkiksi äänitulosteet rajoitetaan julkaisun yhteydessä valikoimaan esiasetettuja ääniä, ja ne noudattavat OpenAI:n nykyisiä turvallisuuskäytäntöjä.

“Kerromme GPT-4o:n kaikkia modaliteetteja koskevia lisätietoja tulevassa järjestelmäkortissa”, OpenAI vakuuttaa.