Podczas streamingu na żywo w zeszły wtorek Sam Altman, CEO Open AI, ogłosił pierwszą od ponad roku znaczącą aktualizację funkcji generowania obrazów w ChatGPT.
ChatGPT może teraz wykorzystywać firmowy model GPT-4o do tworzenia i modyfikowania obrazów i zdjęć. GPT-4o od dawna stanowi podstawę platformy chatbotów opartych na sztucznej inteligencji, ale do tej pory model ten był w stanie generować i edytować tylko tekst, nie obrazy.
Altman powiedział, że funkcja natywnego generowania obrazów GPT-4o jest już dostępna w ChatGPT i Sora, produkcie OpenAI do generowania wideo. Z funkcjo tej mogą skorzystać subskrybenci planu Pro, który kosztuje 200 dolarów miesięcznie. OpenAI twierdzi, że funkcja ta zostanie wkrótce udostępniona użytkownikom planu Plus i darmowej wersji ChatGPT, a także programistom korzystającym z usługi API OpenAI.
GPT-4o z nową funkcją generowania obrazów „myśli” nieco dłużej niż poprzedni model, DALL-E 3. W zamian jednak podobno tworzy dokładniejsze i bardziej szczegółowe obrazy. GPT-4o może edytować istniejące obrazy, w tym również zdjęcia z postaciami ludzi. Jeśli wierzyć zapewnieniom, może przekształcać i ukrywać lub zamalowywać szczegóły, takie jak obiekty na pierwszym planie i w tle.
Firma OpenAI wyjaśniła, że aby zasilić nową funkcję generowania obrazów, przeszkolono model GPT-4o na „publicznie dostępnych danych”. Wykorzystano też zastrzeżone dane pochodzące ze współpracy z firmami takimi jak Shutterstock.
Wielu dostawców generatywnej AI postrzega dane treningowe jako przewagę konkurencyjną. Dlatego też same dane oraz informacje na ich temat są zwykle utrzymywane w tajemnicy. Z drugiej strony jednak szczegóły danych szkoleniowych są też potencjalnym źródłem kłopotów z prawem. Zdarzało się, że ujawniając zbyt wiele, firma narażała się na pozwy. To jeden z powodów, dla których dostawcy wolą trzymać przysłowiowe karty przy orderach.
„Szanujemy prawa artystów, więc rozszerzając funkcję generowania obrazów wdrażamy też stosowne przepisy. Uniemożliwiają nam one generowanie takich treści, które bezpośrednio imitują pracę żyjących artystów” – wyjaśnił Brad Lightcap z OpenAI.
Mało tego, OpenAI oferuje też formularz rezygnacji, który pozwala twórcom zażądać usunięcia ich dzieł z treningowych zbiorów danych. Firma twierdzi również, że respektuje prośby o uniemożliwienie swoim botom web-scrapingowym zbierania danych szkoleniowych, w tym obrazów, ze stron internetowych.
Ulepszona funkcja generowania obrazów ChatGPT jest następstwem eksperymentalnego natywnego generowania obrazów przez Google dla Gemini 2.0 Flash, jednego z flagowych modeli firmy. Ta potężna funkcja szybko zyskała potencjał viralowy, choć niekoniecznie w pozytywnym sensie. Okazało się bowiem, że komponent obrazu Gemini 2.0 Flash ma słabe zabezpieczenia. Z tego powodu ludzie zaczęli usuwać znaki wodne i tworzyć obrazy przedstawiające postacie chronione prawem autorskim.
Podczas gdy twórcy ChatGPT zbroją swoje dzieło w zaawansowane funkcje generowania obrazów, inny projekt AI również zbliża się do przełomowego etapu. MIND of Pepe lada chwila wypuści innowacyjnego agenta AI, który ma szansę zrewolucjonizować obrót kryptowalutami. Nowe narzędzie ma wykorzystywać pozyskane w czasie rzeczywistym dane z mediów społecznościowych i powiązać je z aktywnością on-chain i API, by na tej podstawie wyciągać wnioski i formułować prognozy.
Zweryfikowane w ten sposób aktualne informacje trafią do posiadaczy tokena $MIND, którzy będą mogli na ich podstawie podejmować świadome decyzje inwestycyjne. W przeciwieństwie do tradycyjnych narzędzi AI, MIND ma identyfikować perspektywiczne projekty zawczasu, zanim wejdą do mainstreamu, dzięki czemu inwestorzy załapią się na atrakcyjne, niskie ceny.
Kluczowe komponenty nowoczesnego agenta AI, jakim jest MIND of Pepe, obejmują przede wszystkim specjalnie wytrenowany LLM (duży model językowy), który będzie się komunikował używając żargonu kryptowalutowego. Nie zabraknie też odwołań do popkultury, co stanowi ukłon w stronę miłośników memecoinów.
System integruje dane z CoinMarketCap i Solana Tracker API, a następnie na ich podstawie analizuje trendy rynkowe, aktywność tokenów i sentyment społeczności. MIND ma również w zanadrzu takie narzędzia jak mapy ciepła, monitorowanie działalności influencerów i SmartSwap – ta ostatnia funkcja umożliwia błyskawiczny trading w obrębie platformy. Łącząc analitykę on-chain i off-chain z uczeniem maszynowym MIND ma uprościć process decyzyjny i pomóc inwestorom odnaleźć drogę w gęstwinie informacji i szumu medialnego.
Rozwój sztucznej inteligencji, od generowania obrazów przez ChatGPT po inwestycyjne wsparcie MIND of Pepe, pokazuje, jak szybko technologia redefiniuje nasze możliwości twórcze i finansowe. Jeszcze niedawno zastanawialiśmy się, kiedy AI dogoni człowieka – teraz pora zadać sobie pytanie, czy to człowiek nadąży za takim tempem rozwoju. Czy jesteśmy gotowi na świat, w którym AI nie tylko tworzy, ale i pomnaża nasze zyski?
Klara Liwszyc jest z wykształcenia ekonomistką. Specjalizuje się w dziennikarstwie finansowym, ale w kręgu jej zainteresowań znajdują się też takie tematy jak najnowsze technologie, startupy, rozwiązania informatyczne dla firm i instytucji, uregulowania prawne nowości technologicznych, kryptowaluty, blockchain i bezpieczeństwo inwestycji.
Klara wykorzystuje w pracy dziennikarskiej doświadczenie zdobyte w środowisku akademickim i korporacyjnym w Polsce i w Europie.