Wszech-czat, czyli GPT-4O

Do czterech odlicz

Pierwszym chatem dostępnym dla publicznego odbiorcy był GPT-3.5, który zadebiutował pod koniec 2022 r., kilka miesięcy później na rynek trafiła płatna wersja ChatGPT Plus wykorzystująca GPT-4. W międzyczasie misja nieograniczonego, darmowego dostępu do możliwości AI coraz bardziej rozjeżdżała się z kolejnymi działaniami przedsiębiorstwa, które zdążyło stworzyć odpowiedzialną za działania komercyjne spółkę córkę. GPT-4o ma być powrotem do korzeni – z limitowanym dostępem dla każdego bez opłat – a przynajmniej tak brzmiały zapewnienia podczas pokazu nowego LLM-a. Wystarczy jednak wejść na bloga jednego z założycieli i dyrektora generalnego OpenAI, Sama Altmana, by przeczytać, że nowe rozwiązania będą udostępniane za darmo lub „za przystępną cenę”. Co owa przystępność oznacza? Tego na razie nie wiadomo, jednak faktem pozostaje, że GPT-4o ma być dostępny z poziomu strony chatgpt.com dla każdego, o ile pozwolą na to zasoby firmy. Wciąż istnieje oczywiście możliwość wykupienia planu Plus, który za 20 dol. miesięcznie daje dostęp do GPT-4, a także nowszej wersji z pięciokrotnie wyższym limitem wiadomości względem darmowej odsłony.

Zastanawiać jednak mogą powody, dla których najnowszy model jest dostępny bez żadnych opłat, podczas gdy zwykła czwórka znajduje się za paywallem. Gdy nie wiadomo, o co chodzi, a w grę nie wchodzą pieniądze, to chodzi o nasze dane (i pieniądze, bo koniec końców zawsze chodzi o nie). Nauka LLM-ów do tanich nie należy – koszt w przypadku GPT-4 (według słów Altmana) przekroczył 100 milionów dol. W momencie udostępnienia modelu dla wszystkich nowe informacje będą dostarczane bezpośrednio przez użytkowników w najróżniejszych formach. W ten sposób OpenAI zbuduje choćby swoje repozytorium plików wideo – wszak oficjalnie nie może wykorzystywać filmów dostępnych na np. YouTubie – a co za tym idzie, nauczy LLM-a lepszego „postrzegania” i „rozumienia” naszego świata. Tyle jednak tytułem wstępu – czas przybliżyć, co ten wszech-czat („o” w GPT-4o pochodzi od greckiego „omnia”, czyli wszech lub wszystko) właściwie potrafi.

Trzy w jednym

Najnowsza wersja GPT to system wielomodalny, zawierający modele do przetwarzania wizji oraz fonii i właśnie w tym należy dopatrywać się największego przełomu. Do tej pory nawet jeśli GPT-4 był w stanie wygenerować odpowiedź na prompt podany w postaci wideo lub obrazu, a także nagrania dźwiękowego, to nie działo się to bezpośrednio na podstawie danych wejściowych. Zamiast tego były one zawsze zamieniane na tekst, a dopiero po przetworzeniu i analizie następowała odpowiedź. Co za tym idzie, cały proces trwał dość długo, szczególnie w porównaniu z najnowszym GPT-4o. Ten ma się szczycić średnią reakcją na poziomie 320 milisekund przy pytaniu zadanym głosowo. Jest to wynik bliski ludzkiemu, co pozwala na „konwersację” i interakcję bliską tym między dwójką ludzi.

Oczywiście dochodzi tutaj ta sama kwestia, co w kontekście modelu Google’a, tj. realności przykładów testowych. W przypadku GPT-4o jednak część możliwości zaprezentowano na żywo, a samej sztucznej inteligencji zdarzało się pomylić lub zagubić w toku rozmowy, co zwiększało wrażenie realnej, niezaaranżowanej sytuacji. Co ciekawe, gdy nowy model odpowiada na pytanie, można w każdej chwili wejść mu w słowo, by przerwał. Bodaj największe wrażenie robił jednak sam głos, który mógł być dowolnie modulowany pod względem emocji, tonu itp. Te ostatnie aspekty model jest w stanie również rozpoznawać u innych. Być może niektórych zaskoczy, że AI potrafi nawet przyzwoicie śpiewać. Dodatkowo GPT-4o „widzi” otoczenie przez kamerę wykorzystywanego urządzenia i na bieżąco opisuje widok, a także reaguje na zachodzące zmiany.

O ile to właśnie kwestie wideo oraz audio są główną rewelacją, o tyle trzeba pamiętać, że w tekstowych zadaniach nowa wersja ma odpowiadać wydajności GPT-4 Turbo w języku angielskim, jak również podczas kodowania. Jest natomiast przy tym szybsza i o połowę tańsza w kontekście API. Wiąże się to z mniejszą liczbą tokenów, co pozwoliło również na poprawienie rozumienia języków innych niż „ojczysty” dla GPT. Niestety nie znalazł się wśród nich polski, a przynajmniej nie został on wymieniony na stronie OpenAI.

Bądź moimi oczami

Choć wśród opublikowanych testów znalazło się miejsce również na mniej poważne – jak choćby sędziowanie gry w papier, kamień, nożyce – to jeśli zastanowimy się przez chwilę nad potencjałem, jaki niesie za sobą przetwarzanie wizji i audio, a następnie reagowanie na te „bodźce” na bieżąco, mamy tutaj całkiem spore pole do pożytecznych zastosowań. Jako jedno z pierwszych na myśl przychodzi to, które zaprezentowało samo OpenAI do spółki z Be My Eyes – aplikacją wykorzystującą najnowsze technologie w celu polepszenia warunków życia niewidomych lub niedowidzących. Jej działanie opiera się na pracy wolontariuszy, z którymi osoby z niepełnosprawnością wzrokową mogą się połączyć, by poprosić o pomoc. Próba wykorzystania telefonu z GPT-4o pokazała jednak, że wkrótce to właśnie AI może stać się „oczami” dla niewidomych, szczególnie jeśli zostanie zintegrowana np. z inteligentnymi okularami, których rozwój również prężnie posuwa się do przodu.

OpenAI pokazało również możliwości nowego modelu w kontekście nauki np. matematyki – w tym wypadku LLM wcielił się w cierpliwego nauczyciela, który jedynie pomagał w rozwiązaniu zadania, zamiast dać gotową odpowiedź. Biorąc natomiast pod uwagę czas reakcji, GTP-4o z powodzeniem może być wykorzystywane jako tłumacz w trakcie rozmowy dwóch osób mówiących w odmiennych językach. Łatwo zresztą wyobrazić sobie sytuację, w której pozwala on na ćwiczenie płynności w obcym języku poprzez przeprowadzanie rozmów z użytkownikiem.

To wszystko wiąże się oczywiście z jednym z niebezpieczeństw związanych ze sztuczną inteligencją, a mianowicie odbieraniem ludziom pracy. Jeśli AI będzie w stanie wytłumaczyć zagadnienie z zakresu dowolnych przedmiotów ścisłych, to wcale nie nieprawdopodobne wydaje się, że zdecydowanie ograniczy rynek korepetycji. Podobnie ma się to w przypadku możliwości translacji na bieżąco – zapotrzebowanie na tłumaczy może ulec zmniejszeniu, skoro dostosowany do konkretnych potrzeb model będzie tańszy w eksploatacji i dostępny o dowolnej porze. Pozostaje mieć nadzieję, że AI w tym wypadku okaże się koniem, który pociągnie wóz i odciąży człowieka, a nie zastąpi go w roli woźnicy. Innymi słowy – ułatwi nam pracę, ale jej nie zabierze.

Krok w bok

Na wszystkich zademonstrowanych materiałach możliwości GPT-4o wyglądają spektakularnie i nie może to dziwić, bo warstwa wideo oraz audio zawsze będzie działać na wyobraźnię przeciętnego odbiorcy bardziej niż tekst. Niemniej nie można zapominać, że pod względem wydajności mamy do czynienia z szybszym GPT-4 Turbo. Można więc zrozumieć rozczarowanie niektórych – wszak dostaliśmy to samo, ale w innej formie. I tak, i nie. Biorąc bowiem pod uwagę potencjał wykorzystania nowych umiejętności tego modelu, przynosi on coś ważniejszego niż czysta wydajność. Komunikacja z AI nigdy nie była płynniejsza i niesie za sobą również aspekt marketingowy, który pomoże zainteresować nowe osoby, a także inwestorów, co pozwoli tylko na przyspieszenie rozwoju tej technologii.

Autor

Tomasz Lubczyński

Autor jest dziennikarzem z wieloletnim stażem i entuzjastą sztucznej inteligencji. Redaktor „IT Professional”.

19.11.2025

RAG na laptopie, czyli bezpieczne AI dla firm

Wiele firm chce korzystać z potencjału LLM-ów, ale nie może przesyłać poufnych dokumentów do chmury. Rozwiązaniem może być lokalny RAG, którego konfigurację omówimy w...

Więcej

08.10.2025

Polskie certyfikaty respektowane w całej Unii

Za sprawą ustawy o krajowym systemie certyfikacji cyberbezpieczeństwa od 28 sierpnia tego roku certyfikaty wydane w Polsce będą honorowane we wszystkich krajach Unii Europejskiej....

Więcej

09.09.2025

Wykorzystanie oprogramowania z rynku wtórnego w firmach i instytucjach publicznych

W miarę przyspieszania transformacji cyfrowej w różnych sektorach organizacje wpadają w pułapkę rosnących kosztów związanych z zakupem software’u. Jedną z odpowiedzi na ten problem...

Więcej

27.07.2025

Prawa autorskie do wytworów AI

Firmy coraz częściej wykorzystują w swojej działalności systemy oparte na sztucznej inteligencji. Powszechne użycie tych narzędzi nasuwa jednak szereg pytań w kontekście praw własności...

Więcej

20.06.2025

Integracja AI z narzędziami za pomocą Model Context Protocol

Integracja różnych systemów i narzędzi zawsze była kluczowym wyzwaniem dla inżynierów, administratorów oraz menedżerów IT. W tej układance pojawił się jednak kolejny element –...

Więcej

22.05.2025

Monitorowanie i analiza aktywności online

Media społecznościowe są obecnie czymś więcej niż tylko platformami do wymiany myśli i zdjęć. Stały się przestrzenią, w której użytkownicy – często zupełnie nieświadomie...

Więcej

08.04.2025

Modernizacja aplikacji z użyciem GenAI

Liczba zastosowań modeli generatywnych jest coraz większa – dużą ich część skomercjalizowano, inne nie są jeszcze na to gotowe. W niniejszym artykule chcielibyśmy skupić...

Więcej

11.03.2025

Kontrola dostępu w środowisku IT

Żyjemy w czasach, gdy wiele firm decyduje się na korzystanie z mieszanki systemów lokalnych i chmurowych, przechodząc na rozwiązania hybrydowe. W ten sposób zwiększa...

Więcej

25.02.2025

Centrum zarządzania dostępem do chmury

Wyobraź sobie, że dopiero zaczynasz przygodę z Amazon Web Services i od początku chcesz mieć wszystko, jak należy – bezpiecznie, wygodnie i z głową....

Więcej

Do czterech odlicz

Trzy w jednym

Bądź moimi oczami

Krok w bok

Autor

Zobacz również