مقارنة النماذج مقارنة نماذج الصور أدوات الذكاء الاصطناعي النماذج نماذج الصور أخبار الذكاء الاصطناعي البحث جرّب مجانًا
شروحات 9 دقائق قراءة

كيف تجعل الذكاء الاصطناعي يشرح أي صورة

بقلم Chatday Editorial Team ·

aiشروحاتصورإنتاجية
كيف تجعل الذكاء الاصطناعي يشرح أي صورة

إليك حيلة لم يجرّبها معظم الناس بعد: يمكنك أن تناول الذكاء الاصطناعي صورة وتسأله ببساطة عمّا يجري فيها. لا أن تبحث عنها، ولا أن تقصّها، ولا أن تكتب وصفاً لها. أرِه الصورة وتحدّث إليه كأنه صديق يصادف أنه يعرف القليل عن كل شيء. قائمة مكونات وجبة خفيفة لا تستطيع نطقها، رسالة خطأ غريبة جمّدت حاسوبك المحمول، نبتة في حديقة جارك، أو رسم بياني في مقال فقدك في منتصفه. وجّه كاميرتك، اطرح سؤالك، واحصل على إجابة واضحة. لقد تحوّل ألبوم صورك بهدوء إلى صندوق بحث، ولا أحد تقريباً يستخدمه بهذه الطريقة حتى الآن.

ماذا يعني أن يستطيع الذكاء الاصطناعي “رؤية” صورة

لسنوات، كان روبوت الدردشة يستطيع التعامل فقط مع الكلمات التي تكتبها. النماذج الأحدث مختلفة. إنها “متعددة الوسائط”، وهي طريقة أنيقة للقول إنها تستوعب أكثر من النص. يمكنك إسقاط صورة فيها، فيقرؤها الذكاء الاصطناعي كما يقرأ جملة، ثم يجيب عن أسئلتك حولها. صمّمت Google نماذج Gemini للتعامل مع النص والصور والصوت والفيديو دفعة واحدة، والنماذج الأحدث من OpenAI و Anthropic تقبل الصور أيضاً. الأسماء الكبيرة التي تسمع عنها بالفعل صارت كلها قادرة على النظر إلى صورة الآن.

وعملياً، يعني ذلك أنك لم تعد المترجم. في السابق، كنت تحدّق في ملصق، وتكتب ما رأيته، وتأمل أنك وصفته بدقة كافية. أما الآن فما عليك إلا أن تُري الذكاء الاصطناعي الملصق. هو من يحدّق. يبدو التحول صغيراً، لكنه يزيل أكثر الخطوات إزعاجاً، وهي تحويل ما تنظر إليه إلى كلمات قبل أن تتمكن حتى من طرح سؤالك.

أفضل الأشياء التي توجّه إليها كاميرتك

أسرع طريقة لاستيعاب الفكرة هي رؤية مداها. إليك المهام اليومية التي يلجأ إليها الناس أكثر من غيرها، وماذا تسأل، وما الذي تحصل عليه في المقابل.

التقط صورة لـ…اسأل…ما الذي تحصل عليه
ملصق غذائي أو قائمة مكونات”هل هنا شيء يجب أن يتجنبه شخص لديه حساسية من المكسرات؟“قراءة واضحة للخطوط الدقيقة
نبتة أو حشرة أو فطر”ما هذا، وهل من الآمن لمسه؟“أفضل تخمين للهوية، مع تنبيه للتأكيد
رسالة خطأ جمّدت شاشتك”ماذا يعني هذا وكيف أصلحه؟“حلّ للمشكلة خطوة بخطوة
ملاحظة بخط اليد أو بطاقة وصفة قديمة”اكتب لي هذا”النص، منسوخاً
رسم بياني لا تفهمه”اشرح ما يعرضه هذا في سطر واحد”الاتجاه بكلمات واضحة
قائمة طعام بلغة أخرى”ما الأطباق النباتية هنا؟“قائمة مختصرة مترجمة ومُصفّاة
واجب منزلي أو مسألة رياضية”اشرح لي كيف أحلّ هذه”الخطوات، لا الإجابة فقط
إطلالة، أو غرفة، أو شريحة عرض”ما الذي ستغيّره في هذه؟“ملاحظات صادقة ومحددة

لا يحتاج أيٌّ من هذه إلى تطبيق أو إعداد خاص. ترفع الصورة في الدردشة، وتكتب سؤالك بجانبها، وهذه هي الخطوة بأكملها.

الأفضل للحظات “ما هذا؟” اليومية

الاستخدام الكلاسيكي هو الفضول. حشرة على عتبة النافذة، رمز غريب على بطاقة ملابس، مبنى مررت به في عطلة. التقط صورته، واسأل “ما هذا؟”، فتحصل على نقطة انطلاق في ثوانٍ. عامِل الإجابة كتخمين ذكي لا كحقيقة مطلقة، خصوصاً لأي شيء ستأكله أو تلمسه أو تأتمنه على سلامتك. ولتلك الحالات، اطلب من الذكاء الاصطناعي أن يبيّن مدى تأكده، ثم تحقّق.

الأفضل لقراءة الأشياء الصغيرة جداً أو المبعثرة جداً

هذا هو الاستخدام المفيد بهدوء. الذكاء الاصطناعي بارع في استخراج النص من الصورة، بما في ذلك الكتابة اليدوية، وهي الجزء الذي كان صعباً في السابق. خط طبيب متعرّج، وصفة بخط جدتك، إيصال، أو لوح أبيض بعد اجتماع. اطلب منه “انسخ هذا تماماً”، فتحصل على نص مكتوب يمكنك البحث فيه أو لصقه أو تنظيفه. لن يكون مثالياً مع الكتابة اليدوية الفوضوية حقاً، لكنه أسرع من كتابتها بنفسك، وكل ما عليك هو تصحيح الكلمات القليلة التي فاتته.

الأفضل للقطات الشاشة والتقنية التي علقت معها

لقطات الشاشة هي صور أيضاً، وهنا يتألق الذكاء الاصطناعي لمن ليس خبيراً تقنياً. هل واجهت رسالة خطأ محيّرة، أو شاشة إعدادات لا تفهمها، أو تطبيقاً يرفض التصرف بشكل صحيح؟ التقط لقطة شاشة، وألصقها، واسأل ماذا تفعل. ولأن الذكاء الاصطناعي يستطيع قراءة الشاشات المزدحمة، فبإمكانه أن يشير إلى الزر المحدد الذي تبحث عنه بدلاً من إعطائك ردّاً عاماً مثل “هل جرّبت إعادة التشغيل؟”. وإن أردت تجربة النسخة الخالية من التعقيد، فأداة تحليل الصور من Chatday مصمّمة لهذا بالضبط: أسقِط الصورة، واطرح سؤالك.

كيف تحصل على إجابة واضحة ومفيدة

كأي شيء مع الذكاء الاصطناعي، تحصل على قدر ما تقدّم. عاملان يحددان جودة الإجابة، وأنت تتحكم بكليهما.

أولاً، الصورة. لقطة حادة جيدة الإضاءة قريبة تتفوق على لقطة معتمة مائلة. إن كنت تهتم فقط بلوحة المكونات، فاقتصص الصورة على لوحة المكونات. الوهج على شاشة أو ملصق هو السبب المعتاد حين يسيء الذكاء الاصطناعي قراءة النص، لذا أمِل الصورة لتتخلص من الانعكاس. لا يستطيع الذكاء الاصطناعي العمل إلا بما هو ظاهر فعلاً في وحدات البكسل.

ثانياً، السؤال. “ما هذا؟” يعطيك إجابة غامضة. أما “ما هذا، وهل سيكون آمناً لكلب أن يأكله؟” فيعطيك الإجابة التي أردتها فعلاً. أخبره من أنت ولماذا تسأل. “لديّ حساسية من الألبان، هل في هذه القائمة شيء يجب أن أتجنبه؟” يحوّل جداراً من النص الأجنبي إلى قائمة مختصرة من سطرين. كلما كان طلبك أكثر تحديداً، كان الرد أكثر فائدة.

أين لا يزال الذكاء الاصطناعي البصري يخطئ

إليك الجزء الصادق، لأن الأداة التي تثق بها بشكل أعمى هي أداة ستحرقك في النهاية. قراءة الذكاء الاصطناعي للصور مفيدة بحق، لكن لها نقاط عمياء حقيقية.

قد يخطئ بثقة. سيعطيك الذكاء الاصطناعي إجابة نظيفة تبدو واثقة حتى حين يكون قد أساء قراءة الصورة، ونادراً ما يقول “لست متأكداً” ما لم تسأله. هذه هي الثقة المفرطة نفسها التي تجعل روبوتات الدردشة تختلق الأمور بثقة في النص، وتنطبق على الصور تماماً. الأرقام الدقيقة فخّ شائع: قد يقرأ اتجاه الرسم البياني بشكل صحيح لكنه يخطئ في قيمة محددة، لذا لا تنسخ أرقاماً دقيقة من صورة دون أن تتحقق منها بنفسك.

كما أن له حدوداً يجب أن تحترمها. قد يسيء قراءة كتابة يدوية مهملة أو لقطة ضبابية. وهو ليس طبيباً ولا محامياً ولا محاسباً، فصورة لطفح جلدي أو عقد أو فحص طبي تستحق محترفاً حقيقياً لا حدس روبوت دردشة. ولأسباب تتعلق بالخصوصية، لن تتعرف النماذج الجيدة على شخص غريب بعينه من صورة، وهذه ميزة لا عيب.

أي ذكاء اصطناعي هو الأفضل في قراءة الصور؟

بصراحة، النماذج الكبيرة كلها بارعة في هذا الآن، والعامل الأكبر هو صورتك وسؤالك لا العلامة التجارية. ومع ذلك، لها نقاط قوة مختلفة قليلاً. بعضها أقوى مع لقطات الشاشة والمستندات المزدحمة، وبعضها مع “ما هذا؟” السريعة في الواقع. الطريقة الوحيدة لتعرف أيها يناسبك هي أن تعطي الصورة نفسها لاثنين منها وتقارن. وإن أردت أن تضع نموذجين وجهاً لوجه، يمكنك مشاهدة النماذج جنباً إلى جنب في المقارن.

ملاحظة سريعة عن الحيل الشبيهة بهذه. إن كانت “صورتك” في الحقيقة مستنداً طويلاً، كعقد أو ورقة بحثية، فستحصل على نتيجة أفضل برفع الملف واستخدام الدردشة مع ملف PDF بدلاً من ذلك، لأنه يستطيع قراءة كل صفحة بدلاً من صورة واحدة. وإن كانت الصورة نفسها هي المشكلة، باهتة أو مخدوشة أو منخفضة الدقة، فتلك مهمة مختلفة: يستطيع الذكاء الاصطناعي أيضاً ترميم الصور القديمة وتنظيفها لا قراءتها فقط.

لا. أي دردشة ذكاء اصطناعي تقبل رفع الصور تفي بالغرض. تفتح دردشة، وترفق الصورة أو تلصقها، وتكتب سؤالك، وترسل. على الهاتف يمكنك عادةً الرفع مباشرة من ألبوم صورك.
غالباً نعم، خصوصاً الكتابة المرتبة. ينسخ النص المطبوع بموثوقية عالية جداً، ويؤدي عملاً جيداً مع معظم الخط المتصل أيضاً. الكتابة الفوضوية أو الباهتة تربكه، لذا راجِع النتيجة وصحّح الكلمات القليلة التي خمّنها خطأ.
استخدم المنطق السليم. تجنّب رفع أشياء فيها تفاصيل حساسة لا تريد تخزينها، كأرقام البطاقات الكاملة أو كلمات المرور. أما للملصقات والقوائم ولقطات الشاشة اليومية فلا بأس. اقتصص أي شيء خاص قبل أن ترسل.
الصورة عادةً. الوهج والضبابية والزاوية المائلة واللقطة البعيدة كلها تضرّ بالدقة. أعِد التقاطها أقرب وأوضح، واقتصصها على الجزء الذي يهمك، واطرح سؤالاً أكثر تحديداً. وإن كان تفصيل ما مهماً حقاً، فتحقّق منه بنفسك.
لا، وهذا مقصود. النماذج الشائعة ترفض تسمية الأفراد من الصور لأسباب تتعلق بالخصوصية. ستصف ما في الصورة، لكنها لن تضع اسماً على وجه شخص غريب.

الخلاصة

في المرة القادمة التي تحدّق فيها في ملصق، أو تعلق مع رسالة خطأ، أو تحدّق في رسم بياني كأنه بلغة أخرى، توقّف عن كتابة ما تراه. فقط أرِ الذكاء الاصطناعي الصورة واسأل. هو يقرأ الخطوط الدقيقة، ويفك رموز لقطة الشاشة، وينسخ الخط المتعرّج، ويشرح الرسم البياني، كله بكلمات واضحة، في ثوانٍ قليلة. ضع الحدود الصادقة في ذهنك، وتحقّق مرتين من أي شيء مهم، وستكون قد أضفت مهارة مفيدة بحق لا تكلّف شيئاً لتجربتها.