GPT-4o jest nie tylko (w przeciwieństwie do swojego poprzednika) dostępny za darmo, ale też robi na żywo wszystko to, co miała rzekomo potrafić SI Google’a – „widzi” i „słyszy”.
O tym, jak firma z kalifornijskiego Mountain View zmanipulowała pierwszą prezentację czatu, pisaliśmy w jednym z wcześniejszych numerów („IT Professional” 03/2024, s. 23). Na potrzeby tego artykułu przypomnimy jedynie – Google zmontowało wideo w taki sposób, by odbiorca odniósł wrażenie, że „rozmowa” z Geminim jest prowadzona na żywo, a czas potrzebny na odpowiedź nie przekracza tego niezbędnego człowiekowi. Minęło zaledwie kilka miesięcy, a OpenAI pokazało to samo, tyle że w trakcie emitowanej za pośrednictwem YouTube’a transmisji live. Każde kolejne demo możliwości GPT-4o tylko utwierdzało w przekonaniu, że majowy Spring Update był kolejnym milowym krokiem w rozwoju sztucznej inteligencji.
Do czterech odlicz
Pierwszym chatem dostępnym dla publicznego odbiorcy był GPT-3.5, który zadebiutował pod koniec 2022 r., kilka miesięcy później na rynek trafiła płatna wersja ChatGPT Plus wykorzystująca GPT-4. W międzyczasie misja nieograniczonego, darmowego dostępu do możliwości AI coraz bardziej rozjeżdżała się z kolejnymi działaniami przedsiębiorstwa, które zdążyło stworzyć odpowiedzialną za działania komercyjne spółkę córkę. GPT-4o ma być powrotem do korzeni – z limitowanym dostępem dla każdego bez opłat – a przynajmniej tak brzmiały zapewnienia podczas pokazu nowego LLM-a. Wystarczy jednak wejść na bloga jednego z założycieli i dyrektora generalnego OpenAI, Sama Altmana, by przeczytać, że nowe rozwiązania będą udostępniane za darmo lub „za przystępną cenę”. Co owa przystępność oznacza? Tego na razie nie wiadomo, jednak faktem pozostaje, że GPT-4o ma być dostępny z poziomu strony chatgpt.com dla każdego, o ile pozwolą na to zasoby firmy. Wciąż istnieje oczywiście możliwość wykupienia planu Plus, który za 20 dol. miesięcznie daje dostęp do GPT-4, a także nowszej wersji z pięciokrotnie wyższym limitem wiadomości względem darmowej odsłony.
Zastanawiać jednak mogą powody, dla których najnowszy model jest dostępny bez żadnych opłat, podczas gdy zwykła czwórka znajduje się za paywallem. Gdy nie wiadomo, o co chodzi, a w grę nie wchodzą pieniądze, to chodzi o nasze dane (i pieniądze, bo koniec końców zawsze chodzi o nie). Nauka LLM-ów do tanich nie należy – koszt w przypadku GPT-4 (według słów Altmana) przekroczył 100 milionów dol. W momencie udostępnienia modelu dla wszystkich nowe informacje będą dostarczane bezpośrednio przez użytkowników w najróżniejszych formach. W ten sposób OpenAI zbuduje choćby swoje repozytorium plików wideo – wszak oficjalnie nie może wykorzystywać filmów dostępnych na np. YouTubie – a co za tym idzie, nauczy LLM-a lepszego „postrzegania” i „rozumienia” naszego świata. Tyle jednak tytułem wstępu – czas przybliżyć, co ten wszech-czat („o” w GPT-4o pochodzi od greckiego „omnia”, czyli wszech lub wszystko) właściwie potrafi.
Trzy w jednym
Najnowsza wersja GPT to system wielomodalny, zawierający modele do przetwarzania wizji oraz fonii i właśnie w tym należy dopatrywać się największego przełomu. Do tej pory nawet jeśli GPT-4 był w stanie wygenerować odpowiedź na prompt podany w postaci wideo lub obrazu, a także nagrania dźwiękowego, to nie działo się to bezpośrednio na podstawie danych wejściowych. Zamiast tego były one zawsze zamieniane na tekst, a dopiero po przetworzeniu i analizie następowała odpowiedź. Co za tym idzie, cały proces trwał dość długo, szczególnie w porównaniu z najnowszym GPT-4o. Ten ma się szczycić średnią reakcją na poziomie 320 milisekund przy pytaniu zadanym głosowo. Jest to wynik bliski ludzkiemu, co pozwala na „konwersację” i interakcję bliską tym między dwójką ludzi.
Oczywiście dochodzi tutaj ta sama kwestia, co w kontekście modelu Google’a, tj. realności przykładów testowych. W przypadku GPT-4o jednak część możliwości zaprezentowano na żywo, a samej sztucznej inteligencji zdarzało się pomylić lub zagubić w toku rozmowy, co zwiększało wrażenie realnej, niezaaranżowanej sytuacji. Co ciekawe, gdy nowy model odpowiada na pytanie, można w każdej chwili wejść mu w słowo, by przerwał. Bodaj największe wrażenie robił jednak sam głos, który mógł być dowolnie modulowany pod względem emocji, tonu itp. Te ostatnie aspekty model jest w stanie również rozpoznawać u innych. Być może niektórych zaskoczy, że AI potrafi nawet przyzwoicie śpiewać. Dodatkowo GPT-4o „widzi” otoczenie przez kamerę wykorzystywanego urządzenia i na bieżąco opisuje widok, a także reaguje na zachodzące zmiany.
O ile to właśnie kwestie wideo oraz audio są główną rewelacją, o tyle trzeba pamiętać, że w tekstowych zadaniach nowa wersja ma odpowiadać wydajności GPT-4 Turbo w języku angielskim, jak również podczas kodowania. Jest natomiast przy tym szybsza i o połowę tańsza w kontekście API. Wiąże się to z mniejszą liczbą tokenów, co pozwoliło również na poprawienie rozumienia języków innych niż „ojczysty” dla GPT. Niestety nie znalazł się wśród nich polski, a przynajmniej nie został on wymieniony na stronie OpenAI.
Bądź moimi oczami
Choć wśród opublikowanych testów znalazło się miejsce również na mniej poważne – jak choćby sędziowanie gry w papier, kamień, nożyce – to jeśli zastanowimy się przez chwilę nad potencjałem, jaki niesie za sobą przetwarzanie wizji i audio, a następnie reagowanie na te „bodźce” na bieżąco, mamy tutaj całkiem spore pole do pożytecznych zastosowań. Jako jedno z pierwszych na myśl przychodzi to, które zaprezentowało samo OpenAI do spółki z Be My Eyes – aplikacją wykorzystującą najnowsze technologie w celu polepszenia warunków życia niewidomych lub niedowidzących. Jej działanie opiera się na pracy wolontariuszy, z którymi osoby z niepełnosprawnością wzrokową mogą się połączyć, by poprosić o pomoc. Próba wykorzystania telefonu z GPT-4o pokazała jednak, że wkrótce to właśnie AI może stać się „oczami” dla niewidomych, szczególnie jeśli zostanie zintegrowana np. z inteligentnymi okularami, których rozwój również prężnie posuwa się do przodu.
OpenAI pokazało również możliwości nowego modelu w kontekście nauki np. matematyki – w tym wypadku LLM wcielił się w cierpliwego nauczyciela, który jedynie pomagał w rozwiązaniu zadania, zamiast dać gotową odpowiedź. Biorąc natomiast pod uwagę czas reakcji, GTP-4o z powodzeniem może być wykorzystywane jako tłumacz w trakcie rozmowy dwóch osób mówiących w odmiennych językach. Łatwo zresztą wyobrazić sobie sytuację, w której pozwala on na ćwiczenie płynności w obcym języku poprzez przeprowadzanie rozmów z użytkownikiem.
To wszystko wiąże się oczywiście z jednym z niebezpieczeństw związanych ze sztuczną inteligencją, a mianowicie odbieraniem ludziom pracy. Jeśli AI będzie w stanie wytłumaczyć zagadnienie z zakresu dowolnych przedmiotów ścisłych, to wcale nie nieprawdopodobne wydaje się, że zdecydowanie ograniczy rynek korepetycji. Podobnie ma się to w przypadku możliwości translacji na bieżąco – zapotrzebowanie na tłumaczy może ulec zmniejszeniu, skoro dostosowany do konkretnych potrzeb model będzie tańszy w eksploatacji i dostępny o dowolnej porze. Pozostaje mieć nadzieję, że AI w tym wypadku okaże się koniem, który pociągnie wóz i odciąży człowieka, a nie zastąpi go w roli woźnicy. Innymi słowy – ułatwi nam pracę, ale jej nie zabierze.
Krok w bok
Na wszystkich zademonstrowanych materiałach możliwości GPT-4o wyglądają spektakularnie i nie może to dziwić, bo warstwa wideo oraz audio zawsze będzie działać na wyobraźnię przeciętnego odbiorcy bardziej niż tekst. Niemniej nie można zapominać, że pod względem wydajności mamy do czynienia z szybszym GPT-4 Turbo. Można więc zrozumieć rozczarowanie niektórych – wszak dostaliśmy to samo, ale w innej formie. I tak, i nie. Biorąc bowiem pod uwagę potencjał wykorzystania nowych umiejętności tego modelu, przynosi on coś ważniejszego niż czysta wydajność. Komunikacja z AI nigdy nie była płynniejsza i niesie za sobą również aspekt marketingowy, który pomoże zainteresować nowe osoby, a także inwestorów, co pozwoli tylko na przyspieszenie rozwoju tej technologii.
Autor
Tomasz Lubczyński
Autor jest dziennikarzem z wieloletnim stażem i entuzjastą sztucznej inteligencji. Redaktor „IT Professional”.