モデルを比較 画像モデルを比較 AIツール モデル AI画像モデル AIニュース 検索 無料で試す
ハウツー 9分で読めます

写真やスクショをAIに説明してもらう方法

著者 Chatday Editorial Team ·

aiハウツー画像生産性
写真やスクショをAIに説明してもらう方法

ほとんどの人がまだ試していない裏ワザがあります。それは、写真をそのままAIに渡して「これって何?」と聞くだけ、というやり方です。検索する必要も、トリミングする必要も、見たものを文章で打ち込む必要もありません。写真を見せて、なんでも少しずつ知っている友だちに話しかけるように尋ねればいいのです。発音もできないお菓子の原材料リスト、パソコンを固まらせた見慣れないエラー画面、隣の家の庭に咲いている植物、記事の途中でついていけなくなったグラフ。カメラを向けて、質問して、わかりやすい答えを受け取る。あなたのカメラロールはいつのまにか検索ボックスに変わっているのに、まだほとんど誰もそんな使い方をしていません。

AIが写真を「見る」とはどういうことか

長い間、チャットボットは入力した文字しか扱えませんでした。最近のモデルはそこが違います。これらは「マルチモーダル」と呼ばれていて、要するにテキスト以外のものも受け取れるという意味です。画像を放り込むと、AIはそれを文章を読むのと同じように読み取り、その内容について質問に答えてくれます。Googleは自社のGeminiモデルを、テキスト・画像・音声・動画をまとめて扱えるように作りましたし、OpenAIやAnthropicの最新モデルも画像を受け付けます。あなたがすでに名前を聞いたことのある大手のモデルは、今やどれも写真を見られるのです。

実際には、これであなたが「翻訳係」をしなくてよくなるということです。これまでは、ラベルを目を細めて見て、見えたものを打ち込んで、うまく説明できていることを祈るしかありませんでした。これからはAIにラベルを見せるだけ。目を細めて見るのはAIの仕事です。ささいな変化に聞こえるかもしれませんが、質問をする前にまず目の前のものを言葉に変えるという、いちばん面倒な手間がなくなります。

カメラを向けると役立つ場面

いちばん早く感覚をつかむには、できることの幅を知ることです。ここでは、みんながよく使う日常的な使い方と、何を聞けばいいか、そして何が返ってくるかをまとめました。

写真を撮るもの聞くこと返ってくるもの
栄養成分表示や原材料リスト「ナッツアレルギーの人が避けるべきものはありますか?」細かい文字をわかりやすく読み解いたもの
植物・虫・キノコ「これは何で、触っても大丈夫ですか?」最有力候補の識別結果と、確認をうながす一言
画面を固まらせたエラーメッセージ「これはどういう意味で、どう直せばいいですか?」手順を追ったトラブル解決法
手書きのメモや古いレシピカード「これを文字に起こしてください」書き起こされたテキスト
よくわからないグラフや図表「これが何を示しているか一言で説明して」傾向をわかりやすい言葉にしたもの
外国語のメニュー「この中でベジタリアン向けはどれ?」翻訳して絞り込んだおすすめリスト
宿題や数学の問題「これの解き方を順を追って教えて」答えだけでなく、その手順
コーディネート・部屋・スライド「これ、どこを変えたらいいと思う?」率直で具体的なフィードバック

どれも特別なアプリや設定はいりません。チャットに写真をアップロードして、その横に質問を打ち込む。やることはそれだけです。

日常の「これって何?」にぴったり

定番の使い方は、ちょっとした好奇心です。窓辺にいる虫、衣類のタグに付いた見慣れない記号、旅行中に通りすがった建物。撮って「これは何?」と聞けば、数秒で手がかりが得られます。ただし答えは「賢い推測」くらいに受け止めてください。とくに口に入れるもの、触れるもの、安全に関わるものは要注意です。そういうときは、AIにどのくらい確信があるか示すよう頼んでから、自分で確かめましょう。

小さすぎる・見づらすぎる文字を読むのに最適

これは地味に役立つ使い方です。AIは画像から文字を取り出すのが得意で、これまで難しかった手書き文字も含まれます。判読しづらい医師の走り書き、おばあちゃんの手書きレシピ、レシート、会議のあとのホワイトボード。「これを正確に書き起こして」と頼めば、検索したり貼りつけたり整えたりできるテキストが手に入ります。本当に乱雑な手書きでは完璧とはいきませんが、自分で打ち込むより速く、AIが取りこぼした数語を直すだけで済みます。

スクショや行き詰まったIT操作に最適

スクリーンショットも画像の一種で、ここはITが苦手な人にこそ光る場面です。意味不明なエラーメッセージ、よくわからない設定画面、思いどおりに動かないアプリにぶつかったら、スクショを撮って貼りつけ、どうすればいいか聞いてみましょう。AIは情報の詰まった画面も読めるので、「とりあえず再起動してみた?」といったありきたりな答えではなく、あなたが見落としているまさにそのボタンを指し示してくれます。手間なく試したいなら、Chatdayの画像解析ツールがまさにこのために作られています。写真を放り込んで、質問するだけです。

わかりやすく役立つ答えを引き出すコツ

AIのほかのこと全般と同じで、入れたものしか出てきません。答えの質を決めるのは2つで、どちらもあなたしだいです。

まずは写真です。ピントが合った明るい接写は、暗くて傾いた一枚に勝ります。原材料表示だけが知りたいなら、原材料表示の部分にトリミングしましょう。画面やラベルへの映り込みは、AIが文字を読み間違えるよくある原因なので、角度を変えて反射を消してください。AIはピクセルに実際に写っているものしか扱えません。

次に質問です。「これは何?」ではぼんやりした答えしか返ってきません。「これは何で、犬が食べても安全ですか?」と聞けば、本当に欲しかった答えが得られます。自分が誰で、なぜ聞いているのかを伝えましょう。「乳製品アレルギーなのですが、このメニューで避けたほうがいいものはありますか?」と聞けば、外国語の文字の壁が2行のおすすめリストに変わります。質問が具体的なほど、返事も役に立ちます。

AIの画像認識がまだ間違える場面

ここからは正直な話です。やみくもに信じてしまうツールは、いつか痛い目を見るからです。AIの画像読み取りは本当に便利ですが、見過ごせない弱点もあります。

AIは自信たっぷりに間違えることがあります。写真を読み間違えていても、すっきりとして自信ありげな答えを返してきますし、こちらから聞かないかぎり「確信はありません」とはまず言いません。これはチャットボットがテキストで堂々と作り話をするのと同じ過信で、写真でもまったく同じことが起こります。正確な数字はよくある落とし穴です。グラフの傾向は正しく読めても、特定の値を間違えることがあるので、画像から正確な数値をそのまま写すときは、自分で確認せずに使わないでください。

守るべき限界もあります。雑な手書きやぼやけた写真は読み間違えることがあります。AIは医師でも弁護士でも会計士でもないので、発疹の写真、契約書、医療画像などは、チャットボットの当て推量ではなく本物の専門家に見てもらうべきものです。さらにプライバシーの理由から、よくできたモデルは写真から特定の他人を識別しません。これは欠陥ではなく、むしろよい仕組みです。

画像を読むのが得意なAIはどれ?

正直なところ、今や大手のモデルはどれもこれが得意で、効き目が大きいのはブランドよりあなたの写真と質問のほうです。とはいえ、得意分野は少しずつ違います。情報の詰まったスクショや書類に強いものもあれば、現実世界の「これって何?」にさっと答えるのが得意なものもあります。どれが自分に合うか知る唯一の方法は、同じ写真を2つほどのモデルに渡して比べてみることです。2つを直接対決させたいなら、比較ツールでモデルを並べて見比べることができます。

この裏ワザの「いとこ」にあたるものも少し触れておきます。あなたの「画像」が実は契約書や論文のような長い書類なら、写真ではなくファイルをアップロードしてPDFとチャットするほうがよい結果になります。1枚の写真ではなく、全ページを読めるからです。そして、写真そのものが問題、つまり色あせ・傷・低解像度なら、それは別の仕事です。AIは写真を読むだけでなく、古い写真を復元してきれいにすることもできます。

いいえ。画像のアップロードに対応したAIチャットならどれでも大丈夫です。チャットを開いて、写真を添付するか貼りつけ、質問を打ち込んで送るだけです。スマホなら、たいていカメラロールから直接アップロードできます。
多くの場合は読めます。とくにきれいな手書きなら得意です。印刷された文字はとても正確に書き起こしますし、たいていの筆記体もうまく扱います。乱雑だったり色あせていたりする文字でつまずくので、結果を確認して、読み間違えた数語を直してください。
常識で判断してください。カード番号やパスワードのように、保存されてほしくない機微な情報が写っているものは避けましょう。日常的なラベル・メニュー・スクショなら問題ありません。送る前に、見せたくない部分はトリミングで切り取っておきましょう。
たいていは画像のせいです。映り込み・ぼやけ・傾いた角度・遠すぎる撮影は、どれも精度を下げます。もっと近くではっきり撮り直し、知りたい部分にトリミングして、より具体的に質問しましょう。本当に大事な点なら、自分でも確認してください。
いいえ、そしてそれは意図的なものです。主要なモデルはプライバシーの理由から、画像から個人の名前を挙げることを拒否します。写真に写っているものは説明しますが、見知らぬ人の顔に名前を結びつけることはしません。

まとめ

今度ラベルを目を細めて読もうとしたり、エラーメッセージに行き詰まったり、まるで外国語のようなグラフをにらんでいるときは、見えたものを打ち込むのをやめましょう。ただAIに写真を見せて聞けばいいのです。細かい文字を読み、スクショを読み解き、走り書きを書き起こし、グラフを説明する。それも全部わかりやすい言葉で、ほんの数秒で。正直な限界を頭に入れ、大事なことは念のため確認すれば、無料で試せる本当に役立つスキルが1つ増えます。