Duża aktualizacja Google Bard – eksperyment wykonany, lecz niestety nieudany

Krzysztof Swoboda

03-10-2023
Duża aktualizacja Google Bard – eksperyment wykonany, lecz niestety nieudany

19 września 2023 roku to ważna data dla Google’a. Dużo wskazuje na to, że po miesiącach niepowodzeń, firma wreszcie poradziła sobie z chorobami wieku dziecięcego, z którymi do tej pory borykał się Bard. Lista zmian w nowej wersji usługi robi wrażenie. Czy można już stwierdzić, że sztuczna inteligencja od giganta z Mountain View stanowi realne zagrożenie dla ChataGPT?

Bard stał nad przepaścią. Czy wykonał właśnie wielki krok… naprzód?

Entuzjaści sztucznej inteligencji z całego świata długo czekali na pojawienie się godnego rywala dla ChataGPT. Branża zgodnie twierdziła, że monopol nie służy nikomu: ani rozwojowi AI, ani użytkownikom, ani fundacji OpenAI, która od pewnego czasu zdaje się wytracać impet.

Dość szybko okazało się, że do rywalizacji z Chatem stanie tylko jeden gracz o globalnym zasięgu – Google. Zarówno Meta, Microsoft, Amazon, jak i Apple trzymają się na uboczu i rozwijają swoje narzędzia AI po cichu, bez zbędnego rozgłosu.

Warto w tym miejscu zadać pytanie o to, czy – tak samo, jak w branży systemów operacyjnych czy mobilnych OS-ów – jesteśmy skazani na duopol, gdzie wiele ciekawych, choć niszowych rozwiązań nigdy nie przebije się do mainstreamu. Niestety, ale sporo wskazuje na to, że tak. 

Jest dość prawdopodobne, że entuzjaści sztucznej inteligencji z całego świata nawet nie wiedzą o takich modelach AI, jak: Gopher, Wizard, Falcon, Hermes, Snoozy, Mini Orca.

Paradoksalnie, wszystkie wymienione przeze mnie narzędzia są dostępne za darmo. Można je pobrać na wiele różnych sposobów, w tym także z poziomu autoinstalatora GPT4All – nie musisz umieć programować w Pythonie czy C. Nie trzeba nawet instalować żadnych dodatkowych bibliotek, a jednak mało kto wie o tych usługach.

Faktem jest, że to właśnie ChatGPT oraz Bard mają największe szanse na to, by skutecznie podzielić rynek. W dużej mierze wynika to z tego, że są to modele uniwersalne, o szerokim zakresie zastosowań, a nie narzędzia wyspecjalizowane, które rozwija się np. tylko dla sektora usług medycznych, jak Watson czy HealthScribe, za którymi stoją giganci branży farmaceutycznej.

Szacuje się, że z produktu OpenAI korzysta obecnie 105 milionów użytkowników na całym świecie. To tak, jakby z usługi korzystali wszyscy obywatele takich państw, jak Niemcy czy Meksyk. Co ciekawe, baza użytkowników Barda rośnie jeszcze szybciej! W zależności od źródeł, z tego modelu sztucznej inteligencji korzysta między 90 a 140 milionów osób, z czego większość stanowią osoby: ze Stanów Zjednoczonych (65% użytkowników), z Wielkiej Brytanii (10%), z Indii (6%).

Jak widać, przewaga osób anglojęzycznych jest ogromna. Dla kontrastu, struktura użytkowników ChataGPT jest o wiele bardziej rozmyta, nie ma tutaj tak zdecydowanego lidera. Największą liczbę zapytań generują: Amerykanie (16%), Hindusi (7%), Japończycy (4%).

Można jedynie domniemywać, że to właśnie dlatego narzędzie od OpenAI radzi sobie w naszym kraju o wiele lepiej niż model stworzony przez Google.

Czy aktualizacja z 19 września coś zmienia? Nowy update Barda wprowadza szereg nowości, które na blogu Google prezentują się świetnie. Dodano m.in.:

– wsparcie dla nowych języków (usługa już wcześniej radziła sobie z językiem polskim),

– double-checking, czyli możliwość sprawdzenia generowanych przez AI odpowiedzi – wystarczy nacisnąć literę „G”, by odpowiedź stworzona przez algorytm została sprawdzona w wyszukiwarce Google. W tej chwili funkcja działa tylko w angielskiej wersji językowej, jednak jej szybkie udostępnienie także na inne rynki to tylko kwestia czasu,

– możliwość kontynuowania rozmowy z Bardem, którą udostępniła nam inna osoba,

– tryb przesyłania obrazów za pomocą Obiektywu Google,

– dodano otrzymywanie odpowiedzi w formie obrazów, jednak nie są to grafiki generowane, a raczej pliki, które algorytm pobiera z wyników wyszukiwania w sieci. Można więc przyjąć, że są one objęte prawami autorskimi i majątkowymi.

Nowe funkcje Google Bard w praktyce

Jedną z ciekawszych funkcjonalności, jaką wprowadziła aktualizacja, jest z pewnością double-checking. Faktem jest, że duże modele, które choćby w części uczą się na podstawie konwersacji z internautami, mają tendencję do podawania nieprawdziwych danych – zjawisko to określamy jako konfabulację AI.

Bard, tak samo jak ChatGPT, również nie jest wolny od tych mankamentów. Podwójna weryfikacja, czyli szybkie odwołanie się do wyników wyszukiwania w Google to świetne rozwiązanie problemu, które na pewno zyska wielu zwolenników. Jak to wygląda w praktyce?

Jak pisałem już wcześniej, funkcja działa tylko w języku angielskim. Zapytałem więc Barda o powierzchnię województwa śląskiego wyrażoną w kilometrach kwadratowych, a następnie – zgodnie z rekomendacją Google, kliknąłem literę „G”. Rezultat?

Na poniższym screenie znajduje się początkowa odpowiedź AI:

Tutaj dane, które zostały dodatkowo zweryfikowane przez Barda wraz z omówieniem:

O tym, że usługa nie działa jeszcze w innych językach, może zaś świadczyć poniższy przykład:

Po kliknięciu litery „G” pokazały mi się tylko dwa powiązane tematycznie artykuły, z których mogłem dowiedzieć się nieco więcej o województwie śląskim. 

Jak oceniam tę nowość? To zmiana na lepsze. Nie ulega wątpliwości, że Google właśnie wskazało innym firmom działającym w tym obszarze rynku najprostsze z możliwych rozwiązań, które po prostu działa. 

Internauta nie musi otwierać kolejnej karty w przeglądarce i wpisywać zapytania w wyszukiwarkę ręcznie. Nie musi nawet dopytywać sztucznej inteligencji o to, czy jest pewna podanych wcześniej danych. Wystarczy jedno kliknięcie. Prościej się nie da! 

Otrzymywanie obrazów w formie odpowiedzi… cóż, to temat rzeka. Z jednej strony Google z roku na rok rozwija swój ekosystem właśnie w tym kierunku – można tu wskazać na coraz lepsze działanie Lens czy tryby wyszukiwania obrazem z poziomu widżetów dostępnych dla Androida czy iOS.

Z drugiej jednak strony, jeśli gdzieś Bard mógł zaliczyć spektakularną wpadkę, to faktem jest, że najprościej było o nią właśnie tutaj:

Na powyższej grafice nie zgadza się nic. Warto jednak zwrócić uwagę na to, że rysunek jest jednocześnie aktywnym linkiem, który prowadzi do strony wolnelektury.pl, skąd pochodzi. Nie jest to więc generowanie obrazu, jak np. w Midjourney czy Photosonic, ale raczej próba dopasowania już umieszczonej w sieci grafiki do intencji użytkownika. Niestety, ale wciąż daleka od doskonałości.

Które narzędzie generuje lepsze treści? Zaktualizowany Google Bard czy ChatGPT-4?

Jak najszybciej sprawdzić, który model AI radzi sobie lepiej? Zapytać go o zagadnienie, które jest niszowe, ale jednocześnie na tyle rozpoznawalne, że ma np. swoją stronę na Wikipedii oraz kilku stronach o zasięgu lokalnym lub krajowym. 

Jakiś czas temu, gdy na poważnie zainteresowałem się modelami AI, doszedłem do wniosku, że wystarczy kilka prostych testów, by sprawdzić, czy konkretne narzędzie sprawdza się w działaniach obliczonych pod content marketing i działania wizerunkowe. Jednym z nich jest “Test Odry Wodzisław”. 

Całość opiera się na prostym założeniu: danych o klubie w sieci nie brakuje. Nie mówimy też tutaj o drużynie niszowej, która nigdy nie dotarła nawet do ligi okręgowej – to zespół z bogatą historią w Ekstraklasie, Pucharze Polski, który pokazał się nawet w rozgrywkach europejskich. Źródeł w sieci nie brakuje: Google szacuje liczbę wyników wyszukiwania na niemal 400 tysięcy. To jeden z dwóch wyznaczników, jakie obrałem za kluczowe. 

Drugi sposób to prosty test na interpretację rozumienia słów. Odra to jednocześnie rzeka oraz jednostka chorobowa, a w Polsce mamy zarówno Wodzisław Śląski, powiat wodzisławski, jak i gminę Wodzisław w województwie świętokrzyskim. AI musi więc połączyć ze sobą kilka zmiennych, w tym przypisać poszczególnym słowom właściwą reprezentację.

Na potrzeby eksperymentu poprosiłem oba modele o wygenerowanie krótkiego artykułu na temat: “Historia Odry Wodzisław – oto wszystko, co musisz wiedzieć!”

Dlaczego właśnie ten temat? Z trzech względów:

– ponieważ historia klubu jest dość dobrze opisana zarówno na Wiki, jak i na stronie oficjalnej klubu oraz portalach kibicowskich,

– ponieważ nie jest ona zbyt rozbudowana, wielowątkowa, dlatego dobry model AI powinien sobie poradzić ze stworzeniem takiego artykułu,

– ponieważ zagadnienie jest mi znane, więc łatwo będzie zweryfikować ewentualne potknięcia sztucznej inteligencji.

Jak poradził sobie Bard? Beznadziejnie. Z klubu piłkarskiego uczynił przedsiębiorstwo komunalne, które zarządza gospodarką ściekową w mieście i powiecie. 

Dalszej części wpisu nie ma tu nawet sensu przytaczać. Słowem – absurd goni tu absurd. Co na to ChatGPT? 

Jak widzisz, najlepsza ogólnodostępna wersja Chata, pracująca na silniku GPT-4, również nie poradziła sobie z tym zadaniem. Co ciekawe, ChatGPT próbował dość kreatywnie przemycić tytuł jako frazę pod koniec pierwszego akapitu.

Jakie efekty przyniosło doprecyzowanie i poproszenie obu modeli, by wygenerowały artykuły na temat: “Historia klubu piłkarskiego MKS Odra Wodzisław Śląski – oto wszystko, co musisz wiedzieć?”.

Google Bard:

Usługa od firmy z Mountain View zaczęła nieźle, jednak z każdym kolejnym zdaniem widać było, że AI zaczyna tworzyć fikcyjną rzeczywistość. Idealnym przykładem na potwierdzenie tych słów są zdania, które padają w kolejnych akapitach tekstu:

Odbudowy klubu nie zapoczątkował Piotr Piechnik. O ile mi wiadomo, taka osoba nigdy nie była związana z Odrą. W barwach drużyny grał Piotr Piechniak, jednak było to jeszcze w erze ekstraklasy. Obecnie drużyna występuje w 4.lidze. O warstwie językowej oraz długości kolejnych akapitów H2 nie warto się rozpisywać.

ChatGPT:

Co ciekawe, sztuczna inteligencja od OpenAI poradziła sobie jeszcze gorzej. Już w drugim akapicie pojawia się fikcyjna nazwa klubu. A to dopiero początek absurdów!

W latach 80. XX wieku klub ani razu nie zameldował się na najwyższym szczeblu rozgrywek ligowych w Polsce. Kwestia zagranicznych talentów piłkarskich to mocno kontrowersyjne stwierdzenie, którego raczej nie użyliby w rozmowie nawet najbardziej zagorzali fani klubu z Bogumińskiej. 

Dwa powyższe akapity to tak zły jakościowo content, że trudno tutaj wskazać jakiekolwiek atuty. Być może poza w miarę rozsądnym szykiem samych zdań. Tak czy inaczej, ChatGPT stworzył nic niewnoszące zakończenie tekstu, które jednak z pewnością znalazłoby miejsce na niskiej jakości portalach zapleczowych. 

Czy Bard dogonił Chata, czy to GPT-4 zrównał się w swojej ułomności z Bardem?

Tworząc ten tekst, zamierzałem skupić się na omówieniu nowości, które – przynajmniej w komunikacie na stronie Google’a – wyglądały po prostu świetnie. Innowacje, kilka perełek, na czele z podwójną weryfikacją danych i jakże wyczekiwane przez społeczność odpowiadanie obrazami. Zapowiadało się świetnie!

Gdzieś w toku tworzenia artykułu dostrzegłem jednak, że w górnym lewym rogu usługi wciąż widnieje napis „Eksperyment”. I z pewnym smutkiem trzeba tu odwołać się do utworu „Jeszcze Polska” Kazika Staszewskiego: “eksperyment wykonany, lecz niestety nieudany”. 

O wiele bardziej jednak zaniepokoiło mnie to, że gdzieś w trakcie testowania nowego Barda dotarło do mnie, że ChatGPT, który jeszcze wiosną tego roku był naprawdę świetnym narzędziem, wcale nie poradził sobie o wiele lepiej.

Owszem, jego przewaga nad Bardem jest niezaprzeczalna, jednak bardzo dziwi mnie to, że usługa, która jest trenowana na o wiele większej bazie danych – z której na dodatek każdego dnia korzystają miliony internautów na całym świecie – wykłada się na tak prostym zadaniu. 

Celem było zaledwie stworzenie prostego wpisu o długości choćby dwóch tysięcy znaków ze spacjami o klubie piłkarskim, gdzie z samych tylko odniesień do Wikipedii czy 90minut.pl można już stworzyć całkiem ciekawy tekst. 

Czy wciąż będę korzystał z ChataGPT? Oczywiście! Bo pod wieloma względami to świetne narzędzie, które pozwala mi zaoszczędzić wiele cennych roboczogodzin, choć zauważam, że efekt konfabulacji AI mocno poturbował ten model. A czy do grona moich ulubieńców dołączy Bard? 

Jeszcze nie. Jeśli Google wdroży podwójną weryfikację także dla Polski, będę miał nad czym myśleć. Póki co – poczekam na kolejną wielką rewolucję, jaką na swoim blogu opisze zespół, który tworzy to narzędzie. Kto wie, może wreszcie się uda? 

Autor

Krzysztof Swoboda, Senior Content Specialist w Takaoto, AI Content Designer & Editor

 

Tagi:

Komentarze:

Comments

comments