Yapay zekaya her fotoğrafı açıklatma rehberi
Yazar Chatday Editorial Team ·
İşte çoğu kişinin hâlâ denemediği bir numara: bir fotoğrafı yapay zekaya uzatıp ona neler olduğunu sorabilirsin. Aramana, kırpmana, açıklamasını yazmana gerek yok. Sadece resmi göster ve her konuda biraz fikri olan bir arkadaşınla konuşur gibi konuş. Adını telaffuz bile edemediğin bir atıştırmalığın içindekiler listesi, bilgisayarını donduran tuhaf bir hata kutusu, komşunun bahçesindeki bir bitki, bir makalede yarı yolda seni kaybeden bir grafik. Kameranı doğrult, sorunu sor, anlaşılır bir cevap al. Galerin sessizce bir arama kutusuna dönüştü ve henüz neredeyse hiç kimse onu bu şekilde kullanmıyor.
Yapay zekanın bir fotoğrafı “görmesi” ne demek
Yıllarca bir sohbet botu yalnızca yazdığın kelimelerle çalışabiliyordu. Yeni modeller farklı. Onlar “çok modlu”, yani metinden fazlasını alıyor demenin havalı bir yolu bu. Bir resim bırakıyorsun ve yapay zeka onu bir cümleyi okur gibi okuyup hakkında soruları yanıtlıyor. Google, Gemini modellerini metni, görselleri, sesi ve videoyu tek seferde işleyecek şekilde kurdu; OpenAI ve Anthropic’in en yeni modelleri de görsel kabul ediyor. Adını zaten duyduğun büyük isimlerin hepsi artık bir fotoğrafa bakabiliyor.
Pratikte bu, çevirmenliği bırakman demek. Eskiden bir etikete gözünü kısarak bakar, gördüğünü yazar ve yeterince iyi tarif ettiğini umardın. Artık etiketi yapay zekaya gösteriyorsun. Gözünü kısma işini o yapıyor. Bu değişim küçük gibi geliyor ama en sinir bozucu adımı ortadan kaldırıyor: sorunu sormadan önce baktığın şeyi kelimelere dökmek.
Kameranı doğrultabileceğin en iyi şeyler
Fikri kapmanın en hızlı yolu kapsamını görmek. İşte insanların en sık başvurduğu günlük işler, ne soracağın ve karşılığında ne alacağın.
| Şunun fotoğrafını çek… | Şunu sor… | Karşılığında ne alırsın |
|---|---|---|
| Bir besin değeri etiketi ya da içindekiler listesi | ”Fındık alerjisi olan birinin burada kaçınması gereken bir şey var mı?” | Küçük puntoların anlaşılır bir okuması |
| Bir bitki, böcek ya da mantar | ”Bu nedir ve dokunmak güvenli mi?” | Doğrulamaya teşvik eden, en olası bir tahmin |
| Ekranını donduran bir hata mesajı | ”Bu ne anlama geliyor ve nasıl düzeltirim?” | Adım adım sorun giderme |
| El yazısı bir not ya da eski bir tarif kartı | ”Bunu benim için yaz” | Metne çevrilmiş hâli |
| Anlamadığın bir grafik ya da çizelge | ”Bunun neyi gösterdiğini tek satırda açıkla” | Eğilimin sade kelimelerle anlatımı |
| Başka bir dildeki bir menü | ”Burada vejetaryen olan ne var?” | Çevrilmiş, süzülmüş kısa bir liste |
| Bir ödev ya da matematik problemi | ”Bunu nasıl çözeceğimi adım adım anlat” | Sadece cevap değil, adımlar |
| Bir kıyafet, bir oda, bir slayt | ”Bunda neyi değiştirirdin?” | Dürüst, belirli geri bildirim |
Bunların hiçbiri özel bir uygulama ya da ayar gerektirmiyor. Fotoğrafı sohbete yüklüyor, yanına sorunu yazıyorsun ve hareketin tamamı bu kadar.
Günlük “bu nedir?” anları için en iyisi
Klasik kullanım meraktır. Pencere kenarındaki bir böcek, bir giysi etiketindeki tuhaf bir sembol, tatilde yanından geçtiğin bir bina. Çek, “bu nedir?” diye sor ve saniyeler içinde bir başlangıç noktası al. Cevabı, özellikle yiyeceğin, dokunacağın ya da güvenliğini emanet edeceğin her şey için kutsal bir gerçek değil, akıllı bir tahmin gibi gör. Bunlar için yapay zekadan ne kadar emin olduğunu belirtmesini iste, sonra doğrula.
Çok küçük ya da çok dağınık olanları okumak için en iyisi
Sessizce işe yarayan kullanım bu. Yapay zeka bir görselin içinden metin çıkarmakta iyidir; eskiden zor olan kısım olan el yazısı dahil. Bir doktorun karalaması, büyükannenin elinden çıkma bir tarif, bir fiş, bir toplantı sonrası beyaz tahta. Ona “bunu olduğu gibi yaz” de ve arayabileceğin, yapıştırabileceğin ya da düzenleyebileceğin yazılı metni al. Gerçekten dağınık el yazısında kusursuz olmayacak ama kendin yazmaktan hızlıdır ve yalnızca atladığı birkaç kelimeyi düzeltirsin.
Ekran görüntüleri ve takıldığın teknoloji için en iyisi
Ekran görüntüleri de birer görseldir ve teknolojiyle arası iyi olmayan biri için asıl parladığı yer burası. Kafa karıştıran bir hata mesajıyla, anlamadığın bir ayarlar ekranıyla ya da bir türlü uslanmayan bir uygulamayla mı karşılaştın? Ekran görüntüsünü al, yapıştır ve ne yapman gerektiğini sor. Yapay zeka yoğun ekranları okuyabildiği için, sana genel bir “yeniden başlatmayı denedin mi” demek yerine kaçırdığın tam butonu gösterebilir. Uğraştırmayan sürümünü denemek istersen, Chatday’in görsel analiz aracı tam da bunun için yapıldı: resmi bırak, sorunu sor.
Net ve faydalı bir cevap nasıl alınır
Yapay zekayla ilgili her şeyde olduğu gibi, ne verirsen onu alırsın. Cevabın kalitesini iki şey belirler ve ikisi de senin kontrolünde.
Önce fotoğraf. Net, iyi aydınlatılmış, yakın bir kare; karanlık, eğri bir kareyi rahatça geçer. Yalnızca içindekiler bölümüyle ilgileniyorsan, içindekiler bölümüne kırp. Bir yapay zekanın metni yanlış okumasının her zamanki sebebi, bir ekrandaki ya da etiketteki parlamadır; o yüzden yansımayı yok etmek için açıyı değiştir. Yapay zeka yalnızca piksellerde gerçekten görünen şeyle çalışabilir.
İkincisi, soru. “Bu nedir?” sana belirsiz bir cevap verir. “Bu nedir ve bir köpeğin yemesi güvenli olur mu?” tam istediğin cevabı verir. Ona kim olduğunu ve neden sorduğunu söyle. “Süt ürünlerine alerjim var, bu menüde kaçınmam gereken bir şey var mı?” yabancı bir metin duvarını iki satırlık kısa bir listeye çevirir. İsteğin ne kadar belirli olursa, cevap o kadar faydalı olur.
Yapay zekanın görme yetisinin hâlâ yanıldığı yerler
İşte dürüst kısım, çünkü körü körüne güvendiğin bir araç eninde sonunda seni yakar. Yapay zekanın görsel okuması gerçekten faydalı ama gerçek kör noktaları var.
Kendinden emin bir şekilde yanılabilir. Yapay zeka, resmi yanlış okuduğunda bile sana temiz, emin sesli bir cevap verir ve sen sormadıkça neredeyse hiçbir zaman “emin değilim” demez. Bu, sohbet botlarının metinde kendinden emin biçimde uydurmasına yol açan aynı aşırı özgüvendir ve fotoğraflar için de aynı ölçüde geçerlidir. Kesin sayılar yaygın bir tuzaktır: bir grafiğin eğilimini doğru okuyabilir ama belirli bir değeri yanlış alabilir, bu yüzden bir görseldeki kesin rakamları kendin kontrol etmeden kopyalama.
Saygı göstermen gereken sınırları da var. Özensiz bir el yazısını ya da bulanık bir kareyi yanlış okuyabilir. O bir doktor, bir avukat ya da bir muhasebeci değil, bu yüzden bir döküntünün, bir sözleşmenin ya da bir tıbbi taramanın fotoğrafı bir sohbet botunun sezgisini değil, gerçek bir uzmanı hak eder. Ve gizlilik gerekçesiyle, iyi modeller bir fotoğraftaki belirli bir yabancıyı tanımlamaz; bu bir hata değil, bir özelliktir.
Görselleri okumakta hangi yapay zeka en iyisi?
Açıkçası, büyük modellerin hepsi artık bu işte sağlam ve asıl belirleyici kaldıraç markadan çok senin fotoğrafın ve sorun. Yine de güçlü yanları biraz farklı. Bazıları yoğun ekran görüntüleri ve belgelerde daha iyi, bazıları hızlı gerçek dünya “bu nedir” anlarında. Sana hangisinin uygun olduğunu anlamanın tek yolu aynı fotoğrafı birkaçına verip karşılaştırmak. İkisini kapışacaksan, karşılaştırıcıda modelleri yan yana görebilirsin.
Bu numaranın akrabaları hakkında kısa bir not. “Görselin” aslında bir sözleşme ya da bir araştırma makalesi gibi uzun bir belgeyse, dosyayı yükleyip bunun yerine bir PDF ile sohbet etmeyi kullanarak daha iyi bir sonuç alırsın, çünkü tek bir fotoğraf yerine her sayfayı okuyabilir. Ve sorun fotoğrafın kendisiyse, soluk, çizik ya da düşük çözünürlüklüyse, bu başka bir iş: yapay zeka eski fotoğrafları yalnızca okumakla kalmaz, onları onarabilir ve temizleyebilir de.
Özetle
Bir dahaki sefere bir etikete gözünü kısarak bakarken, bir hata mesajına takılmışken ya da sanki başka bir dilde yazılmış bir grafiğe bakarken, gördüğünü yazmayı bırak. Sadece resmi yapay zekaya göster ve sor. Küçük puntoları okur, ekran görüntüsünü çözer, karalamayı metne döker ve grafiği açıklar; hepsi sade kelimelerle, birkaç saniyede. Dürüst sınırları aklında tut, önemli olan her şeyi iki kez kontrol et ve denemesi hiçbir şeye mal olmayan gerçekten faydalı bir beceri kazanmış ol.