AI로 사진이나 스크린샷을 설명받는 방법
작성자 Chatday Editorial Team ·
아직 대부분의 사람들이 시도해 보지 않은 요령이 하나 있어요. 사진을 AI에게 그냥 건네주고 무슨 상황인지 물어보면 된다는 거예요. 검색할 필요도, 잘라낼 필요도, 설명을 일일이 타이핑할 필요도 없어요. 그냥 사진을 보여주고, 세상 모든 걸 조금씩 아는 친구에게 말하듯 이야기하면 돼요. 도무지 발음할 수 없는 과자 성분표, 노트북을 멈춰버린 이상한 오류창, 옆집 정원에 핀 식물, 읽다가 중간에 길을 잃은 기사 속 도표까지요. 카메라를 들이대고, 질문하고, 알기 쉬운 답을 받으세요. 어느새 사진첩이 검색창으로 변한 셈인데, 아직 그렇게 쓰는 사람은 거의 없어요.
AI가 사진을 ‘본다’는 건 무슨 뜻일까요
오랫동안 챗봇은 우리가 타이핑한 글자로만 일할 수 있었어요. 새로운 모델들은 달라요. 이들은 ‘멀티모달’인데, 텍스트 말고도 더 많은 걸 받아들인다는 걸 멋지게 표현한 말이에요. 사진을 하나 넣어주면 AI가 문장을 읽듯 그 사진을 읽고, 그에 대한 질문에 답해줘요. Google은 Gemini 모델을 텍스트와 이미지, 오디오, 비디오를 한 번에 다루도록 만들었고, OpenAI와 Anthropic의 최신 모델도 이미지를 받아들여요. 익히 들어본 유명 모델들이 이제 모두 사진을 볼 수 있게 된 거예요.
실제로 이건 더 이상 우리가 통역사 노릇을 하지 않아도 된다는 뜻이에요. 예전에는 라벨을 눈을 가늘게 뜨고 들여다보며 본 것을 타이핑하고, 설명을 충분히 잘했기를 바라야 했죠. 이제는 그냥 AI에게 그 라벨을 보여주면 돼요. 눈 가늘게 뜨는 일은 AI가 해줘요. 사소해 보이지만, 질문조차 던지기 전에 눈앞에 보이는 것을 말로 바꿔야 했던 가장 성가신 단계가 사라진 거예요.
카메라를 들이댈 만한 최고의 대상들
가장 빨리 감을 잡는 방법은 그 범위를 직접 보는 거예요. 사람들이 가장 많이 찾는 일상 속 활용, 무엇을 물어보면 되는지, 그리고 어떤 답을 받게 되는지 정리했어요.
| 무엇을 찍을까요… | 무엇을 물어볼까요… | 어떤 답을 받을까요 |
|---|---|---|
| 영양 성분표나 원재료 목록 | ”견과류 알레르기가 있는 사람이 피해야 할 게 여기 있나요?” | 작은 글씨를 알기 쉽게 풀어줘요 |
| 식물, 곤충, 버섯 | ”이게 뭐고, 만져도 안전한가요?” | 가장 가능성 높은 식별 결과와 함께 확인하라는 권유 |
| 화면을 멈춰버린 오류 메시지 | ”이게 무슨 뜻이고 어떻게 고치나요?” | 단계별 문제 해결 방법 |
| 손글씨 메모나 오래된 레시피 카드 | ”이걸 그대로 옮겨 적어 주세요” | 글자를 그대로 옮긴 텍스트 |
| 이해가 안 되는 도표나 그래프 | ”이게 무엇을 보여주는지 한 줄로 설명해 주세요” | 흐름을 알기 쉬운 말로 |
| 다른 언어로 된 메뉴 | ”여기서 채식인 건 뭐예요?” | 번역하고 추려낸 짧은 목록 |
| 숙제나 수학 문제 | ”이걸 푸는 과정을 차근차근 알려주세요” | 답만이 아니라 풀이 과정 |
| 옷차림, 방, 발표 슬라이드 | ”여기서 뭘 바꾸면 좋을까요?” | 솔직하고 구체적인 피드백 |
이 중 어떤 것도 특별한 앱이나 설정이 필요하지 않아요. 채팅에 사진을 올리고 그 옆에 질문을 타이핑하면, 그게 전부예요.
일상 속 “이게 뭐지?” 순간에 딱
대표적인 쓰임새는 호기심이에요. 창틀에 앉은 벌레, 옷 태그에 적힌 이상한 기호, 여행 중 지나친 건물 같은 것들요. 사진을 찍어 “이게 뭐예요?”라고 물으면 몇 초 만에 출발점을 얻어요. 다만 답은 절대적인 진리가 아니라 똑똑한 추측으로 받아들이세요. 특히 먹거나 만지거나 안전이 걸린 거라면요. 그런 경우엔 AI에게 얼마나 확신하는지 표시해 달라고 한 뒤, 직접 확인하세요.
너무 작거나 너무 지저분해서 읽기 힘든 것에 딱
이게 조용히 빛을 발하는 쓰임새예요. AI는 이미지에서 글자를 뽑아내는 데 능숙하고, 예전엔 가장 어려웠던 손글씨까지 잘 읽어내요. 의사의 휘갈긴 글씨, 할머니 손글씨로 적힌 레시피, 영수증, 회의 후 화이트보드까지요. “이걸 그대로 옮겨 적어 주세요”라고 하면 검색하고 붙여넣고 다듬을 수 있는 텍스트를 받게 돼요. 정말 지저분한 손글씨에선 완벽하진 않겠지만, 직접 타이핑하는 것보다 빠르고 놓친 몇 글자만 고치면 돼요.
막혀버린 스크린샷과 기술 문제에 딱
스크린샷도 이미지예요. 그리고 여기가 기술에 익숙하지 않은 사람에게 가장 빛나는 지점이에요. 도무지 알 수 없는 오류 메시지, 이해 안 되는 설정 화면, 말을 안 듣는 앱을 만났나요? 스크린샷을 찍어 붙여넣고 어떻게 해야 하는지 물어보세요. AI는 빽빽한 화면도 읽을 수 있어서, “재시작은 해보셨나요” 같은 뻔한 답 대신 놓치고 있던 바로 그 버튼을 짚어줄 수 있어요. 번거롭지 않은 방법을 써보고 싶다면, Chatday의 이미지 분석 도구가 딱 이걸 위해 만들어졌어요. 사진을 올리고 질문하면 끝이에요.
선명하고 쓸모 있는 답을 얻는 방법
AI에 관한 모든 일이 그렇듯, 넣은 만큼 나와요. 답의 품질을 결정하는 건 두 가지고, 둘 다 우리가 좌우할 수 있어요.
첫째는 사진이에요. 선명하고 잘 찍히고 가까이서 찍은 사진이 어둡고 기울어진 사진을 이겨요. 성분표만 궁금하다면 성분표 부분만 잘라내세요. 화면이나 라벨의 빛 반사는 AI가 글자를 잘못 읽는 흔한 원인이니, 반사가 사라지도록 각도를 살짝 기울이세요. AI는 픽셀에 실제로 보이는 것만 가지고 일할 수 있어요.
둘째는 질문이에요. “이게 뭐예요?”라고 물으면 두루뭉술한 답을 얻어요. “이게 뭐고, 강아지가 먹어도 안전할까요?”라고 물으면 정말 원하던 답을 얻어요. 자신이 누구이고 왜 묻는지 알려주세요. “저는 유제품 알레르기가 있는데, 이 메뉴에서 피해야 할 게 있나요?”라고 하면 외국어 글자 덩어리가 두 줄짜리 짧은 목록으로 바뀌어요. 질문이 구체적일수록 답도 더 쓸모 있어져요.
AI의 시각 인식이 아직 틀리는 부분
이제 솔직한 이야기를 해볼게요. 무작정 믿는 도구는 언젠가 우리에게 화상을 입히는 도구이기 때문이에요. AI의 이미지 읽기는 진짜로 유용하지만, 분명한 사각지대가 있어요.
자신만만하게 틀릴 수 있어요. AI는 사진을 잘못 읽었을 때조차 깔끔하고 확신에 찬 답을 내놓고, 우리가 물어보지 않는 한 “확실하지는 않아요”라고 거의 말하지 않아요. 이건 챗봇이 글에서 자신만만하게 없는 사실을 지어내는 것과 똑같은 과신이고, 사진에도 그대로 적용돼요. 정확한 수치는 흔한 함정이에요. 도표의 흐름은 제대로 읽으면서도 특정 값은 틀릴 수 있으니, 이미지에서 정확한 숫자를 직접 확인하지 않고 그대로 옮겨 적지 마세요.
존중해야 할 한계도 있어요. 지저분한 손글씨나 흐릿한 사진은 잘못 읽을 수 있어요. AI는 의사도, 변호사도, 회계사도 아니어서, 발진 사진이나 계약서, 의료 영상은 챗봇의 짐작이 아니라 진짜 전문가에게 맡겨야 해요. 또 개인정보 보호를 위해, 괜찮은 모델들은 사진 속 특정 낯선 사람을 식별해 주지 않아요. 이건 결함이 아니라 의도된 기능이에요.
이미지를 읽는 데 가장 뛰어난 AI는?
솔직히 말하면, 요즘 큰 모델들은 모두 이걸 잘해요. 그리고 더 큰 변수는 브랜드가 아니라 여러분의 사진과 질문이에요. 그렇긴 해도 모델마다 강점이 조금씩 달라요. 어떤 모델은 빽빽한 스크린샷과 문서에 강하고, 어떤 모델은 빠른 현실 속 “이게 뭐지” 판단에 강해요. 어느 게 나에게 맞는지 아는 유일한 방법은 같은 사진을 두어 모델에 줘서 비교해 보는 거예요. 둘을 맞붙여 보고 싶다면, 비교 도구에서 모델을 나란히 놓고 볼 수 있어요.
이 요령의 사촌격인 기능들에 대해 잠깐 짚을게요. 여러분의 ‘이미지’가 사실은 계약서나 연구 논문 같은 긴 문서라면, 파일을 올리고 PDF와 대화하기를 쓰는 편이 더 나은 결과를 줘요. 사진 한 장이 아니라 모든 페이지를 읽을 수 있으니까요. 그리고 사진 자체가 문제라면, 즉 바래거나 긁히거나 화질이 낮다면, 그건 다른 일이에요. AI는 사진을 읽기만 하는 게 아니라 오래된 사진을 복원하고 정리할 수도 있어요.
핵심 정리
다음에 라벨을 눈을 가늘게 뜨고 들여다보거나, 오류 메시지에 막히거나, 마치 외국어 같은 도표를 멍하니 바라보게 된다면, 보이는 걸 일일이 타이핑하려 들지 마세요. 그냥 AI에게 사진을 보여주고 물어보세요. AI는 작은 글씨를 읽고, 스크린샷을 해석하고, 휘갈긴 글씨를 옮겨 적고, 그래프를 설명해 줘요. 전부 알기 쉬운 말로, 몇 초 만에요. 솔직한 한계를 염두에 두고 중요한 건 꼭 다시 확인한다면, 시도하는 데 비용 한 푼 들지 않는 진짜 쓸모 있는 기술 하나를 손에 넣은 거예요.