Jak sprawić, by AI wyjaśniła każde zdjęcie
Autor Chatday Editorial Team ·
Oto sztuczka, której większość ludzi wciąż nie wypróbowała: możesz podać AI zdjęcie i po prostu zapytać, co się na nim dzieje. Nie szukać tego, nie kadrować, nie wpisywać opisu. Pokazujesz mu obrazek i rozmawiasz z nim jak z kolegą, który akurat zna się trochę na wszystkim. Lista składników przekąski, której nazwy nie umiesz wymówić, dziwne okienko z błędem, które zawiesiło laptopa, roślina w ogrodzie sąsiada, wykres w artykule, który zgubił cię w połowie. Celujesz aparatem, zadajesz pytanie, dostajesz prostą odpowiedź. Twoja galeria zdjęć po cichu zamieniła się w wyszukiwarkę, a prawie nikt jeszcze tak z niej nie korzysta.
Co to znaczy, że AI potrafi “zobaczyć” zdjęcie
Przez lata chatbot umiał pracować tylko ze słowami, które wpisałeś. Nowsze modele są inne. Są “multimodalne”, co jest wymyślnym sposobem powiedzenia, że przyjmują więcej niż sam tekst. Możesz wrzucić obrazek, a AI odczyta go tak, jak odczytuje zdanie, i odpowie na pytania o niego. Google zbudował swoje modele Gemini tak, by za jednym razem radziły sobie z tekstem, obrazami, dźwiękiem i wideo, a najnowsze modele OpenAI i Anthropic też przyjmują obrazy. Wielkie nazwy, o których już słyszysz, potrafią teraz spojrzeć na zdjęcie.
W praktyce znaczy to, że przestajesz być tłumaczem. Kiedyś mrużyłeś oczy nad etykietą, wpisywałeś to, co widzisz, i miałeś nadzieję, że opisałeś to wystarczająco dobrze. Teraz po prostu pokazujesz AI tę etykietę. To ono mruży oczy. Zmiana brzmi drobno, ale usuwa najbardziej irytujący krok, czyli zamienianie tego, na co patrzysz, w słowa, zanim w ogóle zdążysz zadać pytanie.
Najlepsze rzeczy, w które warto wycelować aparat
Najszybciej złapiesz pomysł, gdy zobaczysz cały wachlarz. Oto codzienne zadania, po które ludzie sięgają najczęściej, o co pytać i co dostajesz w zamian.
| Zrób zdjęcie… | Zapytaj… | Co dostajesz w zamian |
|---|---|---|
| Tabeli wartości odżywczych lub listy składników | ”Czy jest tu coś, czego powinna unikać osoba z alergią na orzechy?” | Prosty odczyt drobnego druku |
| Rośliny, owada lub grzyba | ”Co to jest i czy można tego dotykać?” | Najlepsze zgadnięcie, z zachętą do potwierdzenia |
| Komunikatu o błędzie, który zawiesił ekran | ”Co to znaczy i jak to naprawić?” | Rozwiązywanie problemu krok po kroku |
| Odręcznej notatki lub starej karty z przepisem | ”Przepisz mi to” | Przepisany tekst |
| Wykresu lub diagramu, którego nie ogarniasz | ”Wyjaśnij w jednym zdaniu, co to pokazuje” | Trend w prostych słowach |
| Menu w obcym języku | ”Co tu jest wegetariańskie?” | Przetłumaczona, przefiltrowana lista |
| Zadania domowego lub zadania z matematyki | ”Przeprowadź mnie przez to, jak to rozwiązać” | Kolejne kroki, a nie sam wynik |
| Stroju, pokoju, slajdu | ”Co byś tu zmieniła?” | Szczera, konkretna informacja zwrotna |
Żadna z tych rzeczy nie wymaga specjalnej aplikacji ani ustawień. Wgrywasz zdjęcie do czatu, obok wpisujesz pytanie i to cały ruch.
Najlepsze do codziennych chwil typu “co to jest?”
Klasyczne zastosowanie to ciekawość. Owad na parapecie, dziwny symbol na metce ubrania, budynek, który minąłeś na wakacjach. Zrób zdjęcie, zapytaj “co to jest?” i w kilka sekund masz punkt wyjścia. Traktuj odpowiedź jak mądre zgadnięcie, a nie świętość, zwłaszcza przy czymś, co miałbyś zjeść, dotknąć albo powierzyć temu swoje bezpieczeństwo. W takich przypadkach poproś AI, by zaznaczyło, jak bardzo jest pewne, a potem to zweryfikuj.
Najlepsze do odczytywania rzeczy zbyt małych lub zbyt nieczytelnych
To ten cichy bohater. AI dobrze radzi sobie z wyciąganiem tekstu z obrazu, w tym pisma odręcznego, czyli z tym, co kiedyś było trudne. Bazgroły lekarza, przepis ręką babci, paragon, tablica po spotkaniu. Poproś, by “przepisało to dokładnie”, a dostaniesz tekst, który możesz przeszukiwać, wklejać albo dopracować. Przy naprawdę nieczytelnym piśmie nie będzie idealnie, ale to szybsze niż wpisywanie samemu, a ty poprawiasz tylko te kilka słów, których nie złapało.
Najlepsze do zrzutów ekranu i technologii, na której utknąłeś
Zrzuty ekranu to też obrazy i właśnie tutaj to błyszczy dla osoby nietechnicznej. Trafiłeś na niezrozumiały komunikat o błędzie, ekran ustawień, którego nie ogarniasz, albo aplikację, która nie chce słuchać? Zrób zrzut, wklej go i zapytaj, co zrobić. Skoro AI potrafi odczytać gęste ekrany, wskaże ci dokładnie ten przycisk, którego nie widzisz, zamiast podawać ogólne “a próbowałeś zrestartować”. Jeśli chcesz wypróbować wersję bez kombinowania, narzędzie Chatday do analizy obrazów jest stworzone właśnie do tego: wrzuć obrazek, zadaj pytanie.
Jak uzyskać jasną, przydatną odpowiedź
Jak ze wszystkim w AI, dostajesz tyle, ile dasz. O jakości odpowiedzi decydują dwie rzeczy i obie kontrolujesz.
Po pierwsze, zdjęcie. Ostre, dobrze oświetlone ujęcie z bliska bije na głowę ciemne i przechylone. Jeśli zależy ci tylko na panelu ze składnikami, przytnij kadr do panelu ze składnikami. Odblask na ekranie albo etykiecie to zwykle winowajca, gdy AI źle odczyta tekst, więc przechyl tak, by zabić odbicie. AI może pracować tylko z tym, co naprawdę widać na pikselach.
Po drugie, pytanie. “Co to jest?” da ci mglistą odpowiedź. “Co to jest i czy pies mógłby to bezpiecznie zjeść?” da ci odpowiedź, o którą naprawdę ci chodziło. Powiedz, kim jesteś i dlaczego pytasz. “Mam alergię na nabiał, czy w tym menu jest coś, czego powinienem unikać?” zamienia ścianę obcego tekstu w dwuwierszową listę. Im bardziej konkretne pytanie, tym bardziej przydatna odpowiedź.
Gdzie wzrok AI wciąż się myli
Tu przychodzi czas na szczerość, bo narzędzie, któremu ufasz na ślepo, to narzędzie, które w końcu cię sparzy. Odczytywanie obrazów przez AI jest naprawdę przydatne, ale ma realne martwe punkty.
Potrafi mylić się z pełnym przekonaniem. AI poda ci czystą, pewnie brzmiącą odpowiedź nawet wtedy, gdy źle odczytało obrazek, i prawie nigdy nie powie “nie jestem pewne”, o ile o to nie poprosisz. To ta sama nadmierna pewność, przez którą chatboty pewnie zmyślają w tekście, i dotyczy zdjęć w równym stopniu. Dokładne liczby to częsta pułapka: model może poprawnie odczytać trend na wykresie, ale pomylić się przy konkretnej wartości, więc nie przepisuj dokładnych liczb z obrazu bez samodzielnego sprawdzenia.
Ma też ograniczenia, które warto uszanować. Może źle odczytać niechlujne pismo albo rozmazane ujęcie. To nie jest lekarz, prawnik ani księgowy, więc zdjęcie wysypki, umowy czy badania medycznego zasługuje na prawdziwego specjalistę, a nie na przeczucie chatbota. A ze względu na prywatność dobre modele nie rozpoznają konkretnego nieznajomego ze zdjęcia, co jest funkcją, a nie usterką.
Która AI jest najlepsza w odczytywaniu obrazów?
Szczerze mówiąc, duże modele radzą sobie z tym teraz solidnie, a większą dźwignią jest twoje zdjęcie i pytanie, a nie marka. To powiedziawszy, mają nieco inne mocne strony. Jedne są lepsze w gęstych zrzutach ekranu i dokumentach, inne w szybkim, codziennym “co to jest”. Jedyny sposób, by sprawdzić, który pasuje tobie, to dać to samo zdjęcie kilku z nich i porównać. Jeśli chcesz wystawić dwa przeciwko sobie, możesz zobaczyć modele obok siebie w porównywarce.
Krótka uwaga o kuzynach tej sztuczki. Jeśli twój “obraz” to w istocie długi dokument, na przykład umowa albo praca naukowa, lepszy wynik uzyskasz, wgrywając plik i korzystając z rozmowy z PDF-em, bo wtedy przeczyta każdą stronę, a nie jedno zdjęcie. A jeśli problemem jest samo zdjęcie, wyblakłe, porysowane albo o niskiej rozdzielczości, to już inne zadanie: AI potrafi też odnowić i odświeżyć stare zdjęcia, a nie tylko je odczytać.
Najważniejsze na koniec
Następnym razem, gdy będziesz mrużyć oczy nad etykietą, utkniesz na komunikacie o błędzie albo będziesz wpatrywać się w wykres, który równie dobrze mógłby być w obcym języku, przestań wpisywać to, co widzisz. Po prostu pokaż AI obrazek i zapytaj. Odczyta drobny druk, rozszyfruje zrzut ekranu, przepisze bazgroły i wyjaśni wykres, wszystko prostymi słowami, w kilka sekund. Pamiętaj o szczerych ograniczeniach, sprawdzaj wszystko, co ma znaczenie, a zyskasz naprawdę przydatną umiejętność, której wypróbowanie nic nie kosztuje.