Müşterilerimiz İletişim EN

Gemini 3 Flash’ta “Agentic Vision” ile Doğrulanabilir Çok Modlu Sistemler


Özet

Google, Gemini 3 Flash’ta “Agentic Vision” özelliğini tanıttı. Python kod yürütme özelliğiyle desteklenen bu özellik, yinelemeli bir Düşün → Harekete Geç → Gözlemle döngüsü sunuyor. Model, tek bir “statik bakış” yerine, yakınlaştırma/kırpma/açıklama ekleme ve hesaplama yaparak, cevaplarını doğrulanabilir kanıtlara dayandırıyor. Bu özellik özellikle sayma, küçük yazıları okuma ve grafiklerden/tablolardan değer çıkarma konularında fayda sağlıyor.



Hangi yenilikler var?

Çoğu çok modlu model, bir görüntüyü bir kez işler ve bu ilk geçişe göre yanıt verir. Küçük bir detayı (küçük metinler, yoğun tablolar, kalabalık nesneler) kaçırdıklarında genellikle tahminde bulunurlar.


Agentic Vision, “tekrar bakmayı” birinci sınıf bir yetenek haline getirerek bunu değiştiriyor: Gemini 3 Flash, cevap vermeden önce görüntüyü manipüle etmek/analiz etmek için plan yapabiliyor, kod çalıştırabiliyor ve ardından kanıtları yeniden kontrol edebiliyor.


Düşün → Harekete Geç → Gözlemle döngüsü

Agentic Vision, özyinelemeli (recursive) bir iş akışı etrafında organize edilmiştir:

  1. Düşün: Kullanıcı isteğini ve başlangıç görüntüsünü yorumla; nelerin doğrulanması gerektiğine karar ver.
  2. Harekete Geç: Python kodunu oluştur ve yürüt (örneğin: kırpma/yakınlaştırma, döndürme, açıklama ekleme, hesaplama, çizim yapma).
  3. Gözlemle: Çıktıları (kırpılmış görüntüler, sayımlar, hesaplamalar, grafikler) modelin bağlamına geri ekle ve devam et (veya yanıtla).

Agentic Vision, cevap vermeden önce yinelemeli olarak kanıt toplamak için bir Düşün → Harekete Geç → Gözlemle döngüsünü kullanır.

Neden önemli? (Pratik güvenilirlik)

Agentic Vision, “neredeyse doğru” olmanın hala maliyetli olduğu durumlarda çok değerlidir:

  • Yoğun sahnelerde sayım yapma (envanter, raf ürünleri, parçalar)
  • Küçük yazıları okuma (seri numaraları, etiketler, tabelalar)
  • Tablo/grafik ekran görüntülerinden sayısal verileri çıkarma
  • Görsel kuralları doğrulama (uyumluluk kontrolleri, plan incelemesi)

Google, Gemini 3 Flash ile kod yürütmeyi etkinleştirmenin çoğu görsel kıyaslama testinde tutarlı bir şekilde %5–10 oranında kalite artışı sağladığını belirtiyor.



Temel yetenekler (Neler inşa edebilirsiniz?)


1) Aktif yakınlaştırma ve inceleme

Gemini 3 Flash, ayrıntıların standart çözünürlük için çok küçük olduğunu örtük olarak algılayabilir ve ilgili bölgeleri kırpıp yeniden incelemek için kod yürütmeyi kullanabilir.


Google, yinelemeli kırpmanın doğruluğu artırdığı bir bina planı doğrulama örneğini vurguluyor.


2) Görsel açıklama ekleme (“Görsel karalama defteri”)

Model, metinle açıklama yapmaya ek olarak görüntü üzerine kutular, etiketler ya da oklar çizebilir ve böylece sayma gibi görevleri denetlenebilir hale getirir.



3) Deterministik görsel matematik ve çizim

Agentic Vision, görsel tablolardan ve grafiklerden değerleri çıkarabilir ve sonuçları hesaplamak ve grafikler (örneğin, Matplotlib) oluşturmak için Python’u kullanabilir. Bu da görsel aritmetikteki halüsinasyonu azaltır.



Nasıl deneyebilirsiniz? (AI Studio, Gemini API, Vertex AI)


A Seçeneği — Google AI Studio (En hızlı demo)

AI Studio arayüzünü kullanın, Gemini 3 Flash‘ı seçin ve Araçlar → Kod Yürütme (Tools → Code Execution) özelliğini etkinleştirin.


B Seçeneği — Gemini API (Programatik)

Gemini 3 Flash önizleme model kimliği ve dokümanlar:


Model sayfası 👉 Gemini 3 Flash Önizleme | Gemini API | Geliştiriciler için Google Yapay Zeka

Gemini 3 rehberi 👉 Gemini 3 Geliştirici Rehberi | Gemini API | Geliştiriciler için Google Yapay Zeka

Kod yürütme aracı 👉 Kod yürütme | Gemini API | Geliştiriciler için Google Yapay Zeka

 

Minimal Python örneği (Kavramsal)



# Conceptual example — refer to the official docs for full auth/setup.

# Sources:

# - Gemini 3 guide: https://ai.google.dev/gemini-api/docs/gemini-3

# - Code execution: https://ai.google.dev/gemini-api/docs/code-execution

from google import genai

from google.genai import types

client = genai.Client()

response = client.models.generate_content(

    model="gemini-3-flash-preview",

    contents=[

        image_file,

        "Inspect the image step-by-step. Zoom into fine text if needed and verify it."

    ],

    config=types.GenerateContentConfig(

        tools=[types.Tool(code_execution=types.ToolCodeExecution)]

    ),

)

print(response.text)



C Seçeneği — Vertex AI (Bulut)

Modele genel bakış (Vertex AI üzerinde Gemini 3 Flash) 👉 Gemini 3 Flash | Vertex AI üzerinde üretken yapay zeka | Google Cloud Dokümantasyonu

 

Vertex AI üzerinde çok modlu modeller için kod yürütme 👉 Kod yürütme | Vertex AI üzerinde üretken yapay zeka | Google Cloud Dokümantasyonu

 

Sınırlar ve dikkat edilmesi gerekenler (Yayına almadan önce okuyun)


Kod yürütme kısıtlamaları

Kod yürütme için maksimum zaman aşımı süresi 30 saniyedir.

Kaynak 👉 Kod yürütme | Gemini API | Geliştiriciler için Google yapay zeka

 

Vertex AI referans notları (dosya G/Ç işleminin olmaması dahil) bazı sınırlamalara dikkat çeker.

Kaynak 👉 Gemini API ile kod yürütme | Vertex AI üzerinde üretken yapay zeka | Google Cloud Dokümantasyonu

 

Önizleme durumu

Gemini 3 Flash, duyuru ve resmi dokümanlarda Genel Önizleme (Public Preview) olarak konumlandırılmıştır.

Kaynak 👉 Gemini 3 Flash’ta “Agentic Vision” Tanıtılıyor

 

Güvenlik notları (Model kartından)

Resmi Gemini 3 Flash model kartı, Gemini 2.5 Flash’a kıyasla otomatik güvenlik değerlendirme farklarını bildirir ve manuel inceleme bağlamını not eder.


Model kartı ana sayfası 👉 Gemini 3 Flash Model Kartı



Geliştirici örüntüleri (Ajan davranışı güvenilir bir şekilde nasıl elde edilir?)

Bu istem örüntüleri, modelin sadece akıcı cevaplarla kalmayıp, doğrulanabilir çıktılar da üretmesine yardımcı olur:


Örüntü 1 — Kanıt Öncelikli inceleme


“Görüntüyü adım adım incele. Herhangi bir metin küçük veya belirsizse, doğrulamak için yakınlaştır/kırp. Nihai yanıtı döndür ve hangi bölgeleri incelediğini kısaca açıkla.”

Örüntü 2 — Denetlenebilir sayım


“Öğeleri güvenilir bir şekilde say. Sayımın doğrulanabilir olması için görüntüye açıklama eklemeyi bir karalama defteri (kutular/etiketler) gibi kullan. Sayımı bildir ve belirsiz bölgeleri not et.”

Örüntü 3 — Tablo/grafik çıkarma → hesaplama → çizim


“Önce grafik değerlerini bir tabloya aktar. Ardından istenen metriği kod yürütmeyi kullanarak hesapla ve temiz bir grafik oluştur.”

Araç destekli iş akışları için kaynak bağlamı 👉 Gemini 3 Flash’ta “Agentic Vision” Tanıtılıyor

 

⭐⭐⭐


Agentic Vision, doğrulanabilir çok modlu sistemlere yönelik anlamlı bir adımdır. Gemini 3 Flash, görsel yetenekleri araç destekli kod yürütme ile birleştirerek inceleme yapabilir, açıklama ekleyebilir ve hesaplama gerçekleştirebilir. Bu sayede “muhtemelen doğru” olan birçok görsel yanıtı denetlenmiş kanıtlara daha yakın bir şeye dönüştürür.


Kaynaklar

Agentic Vision duyurusu 👉 Gemini 3 Flash’ta “Agentic Vision” Tanıtılıyor

Vertex AI üzerinde Gemini 3 Flash (dokümanlar) 👉 Gemini 3 Flash | Vertex AI üzerinde üretken yapay zeka | Google Cloud Dokümantasyonu

Gemini 3 Flash önizleme modeli (Gemini API) 👉 Gemini 3 Flash Önizleme | Gemini API | Geliştiriciler için Google yapay zeka

Gemini 3 Geliştirici Rehberi 👉 Gemini 3 Geliştirici Rehberi | Gemini API | Geliştiriciler için Google yapay zeka

Kod yürütme (Gemini API) 👉 Kod yürütme | Gemini API | Geliştiriciler için Google yapay zeka

Kod yürütme (Vertex AI) 👉 Kod yürütme | Vertex AI üzerinde üretken yapay zeka | Google Cloud Dokümantasyonu

Kod yürütme API referansı (Vertex AI) 👉 Gemini API ile kod yürütme | Vertex AI üzerinde üretken yapay zeka | Google Cloud Dokümantasyonu

Gemini 3 Flash model kartı 👉 Gemini 3 Flash Model Kartı


Yazan: Ata Güneş

Yayınlanma Tarihi: 03.03.2026



Kategoriler

Tümü Açık Kaynak (27) Android Anthos Çekirdekten Yetişenler Çevik Metodoloji Çocuklar ve Teknoloji (2) Ödeme Sistemleri (2) Üretim Sektörü (5) B2B Pazarlama (5) Bamboo Büyük Ölçekli Şirketler (4) BT Bulut (157) Buluta Geçiş (19) Bulutta Yerel Yazılım Geliştirme (4) C++ Chef ClickHouse Dayanıklılık DevOps (13) Dijital Pazarlama (11) Dijital Yerli Firmalar (3) Django (2) E-ticaret (8) Enerji Sektörü Eğitim Sektörü (7) Felaket Kurtarma (2) Finansal Hizmetler (4) FinOps (3) Firebase (10) Flutter Güvenlik (15) Git Golang (2) Google Cloud (110) Google Labs (14) Google Maps (2) Google Workspace (28) Helm Hibrit ve Çoklu Bulut (8) JavaScript Kadınlar ve STEM (3) Kamu Sektörü (2) KOBİ (5) Kubernetes (5) Kullandığımız Teknolojiler (24) Kullanıcı Arayüzü ve Kullanıcı Deneyimi Linux (6) Looker (7) MariaDB Mobil Uygulama Geliştirme (2) MySQL OpenStack (4) Oyun Sektörü (15) Perakende (13) PostgreSQL Proje Metodolojileri Python (7) Sadakat Programı (5) Sağlık ve Yaşam Bilimleri Sektörü (3) Sürdürülebilirlik (6) Sektöre Özgü Bulut Çözümleri (40) Selenium (2) Sigorta Sektörü Sistem Mimarisi (7) Tüketici Ürünleri (2) Tedarik Zinciri ve Lojistik (3) Teknoloji, Medya, Telekom (3) Terraform Test Etme (4) Turizm ve Eğlence (5) Ulaşım Sektörü (2) Uygulama Modernizasyonu Veri Analitiği (36) Veri Bilimi (2) Veri Depolama Veri Görselleştirme (7) Veri Tabanı (4) Versiyon Kontrolü Yapay Zeka - Makine Öğrenmesi (144) Yasal Uyum Yazılım Geliştirme (9) Yazılım Tarihi (3) Yazılımcı Deneyimi (8) İK Uygulamaları (9) İnşaat Sektörü İşe Alım (7)
Daha Fazla Kategori Göster >> Kategorileri Gizle >>

Kartaca sitesinden daha fazla şey keşfedin

Okumaya devam etmek ve tüm arşive erişim kazanmak için hemen abone olun.

Okumaya Devam Edin