Açık Veri Gölü Evi (Lakehouse) Mimarisi: BigQuery, BigLake ve Apache Iceberg ile Veri Yönetimi
Modern veri iş yüklerini yöneten kurumlar sürekli olarak veri ambarının (data warehouse) yapılandırılmış ve yönetimli performansı ile veri gölünün (data lake) maliyet etkin ve esnek depolaması arasında kalıyorlar. Yıllarca ekipler ya veri ambarının katı yapısı için yüksek ücretler ödediler ya da yönetilmeyen bir gölün getirdiği karmaşayı kabul ettiler. Veri gölü evi (data lakehouse) mimarisi bu gerilimi çözüyor. Google Cloud üzerinde BigLake, Apache Iceberg ve BigQuery kombinasyonu bu mimariyi hayata geçirmek için canlıda kullanıma hazır bir yöntem sunuyor.
Bu yazıda, mimari altyapıyı temel prensiplerden başlayarak açıklayarak her bir servisin arka planda gerçekte ne yaptığını netleştireceğiz; bunların nasıl birlikte çalışabileceğini ve bütünleşik bir göl evine dönüştüğünü göstereceğiz.
Veri Ambarı, Veri Gölü ve Veri Gölü Evi Evrimi
1. Veri Ambarı (Data Warehouse)
Veri ambarı, iş zekası için uzun süredir altın standart olmuştur. Yazma sırasında şema (schema-on-write) modelini kullanır; yani verileri yüklemeden önce şemayı tanımlarsınız. Bu katı yapı; güçlü SQL performansı, ACID (Atomicity [Bölünmezlik], Consistency [Tutarlılık], Isolation [Yalıtım], Durability [Dayanıklılık]) prensiplerine tam uyumlu işlem garantisi ve gelişmiş yönetişim araçları sağlar. Maliyeti ise; hesaplama birimine (compute) sıkıca bağlı özel depolama, TB başına yüksek fiyatlandırma ve yapılandırılmamış veya yarı yapılandırılmış veriler için destek sunulmamasıdır.
2. Veri Gölü (Data Lake)
Veri gölü bu modeli tersine çevirir. Her türden ham veri (yapılandırılmış, yarı yapılandırılmış, yapılandırılmamış) nesne depolama birimlerinde ucuza saklanır ve sorgulama sırasında şema uygulanır (okuma sırasında şema (schema-on-read)). Bu özellik, veri göllerini makine öğrenmesi ve arşivleme kullanım senaryoları için ideal kılar. Dezavantajı ise şudur: İşlem garantisi olmadığında veri kalitesi zamanla bozulur. Göller sıklıkla “veri bataklıklarına” (data swamps) dönüşür.
3. Veri Gölü Evi (Data Lakehouse)
Göl evi, düşük maliyetli nesne depolamada saklanan açık formatlı dosyaların üzerine bir yönetim ve metaveri (metadata) katmanı ekleyerek herhangi bir platform bağımlılığı (lock-in) olmaksızın ACID işlemleri, şema zorunluluğu ve yönetişim sunar. Hem iş zekası/SQL hem de makine öğrenmesi ve yapay zeka iş yüklerine aynı depolama katmanından hizmet verecek şekilde tasarlanmıştır.
Temel Altyapı: Apache Iceberg
Bir veri gölünün bir veri ambarı gibi davranması için ham dosyaların bir yönetim katmanına ihtiyacı vardır. Apache Iceberg tam olarak bunu sağlar. En önemlisi, Iceberg verilerinizi taşımaz veya kopyalamaz. Bunun yerine, Cloud Storage’da halihazırda saklanan dosyaların üzerine bir metaveri ve yapı katmanı ekleyerek veri dosyalarınız için bir dizin ve katalog görevi üstlenir. Bir Iceberg tablosunu sorguladığınızda, GCS’de her zaman var olan aynı Parquet veya Avro dosyalarını sorgularsınız; Iceberg bunları yalnızca sürümlenmiş, işlemsel bir tablo olarak erişilebilir hale getirir.
|
Iceberg gerçekte ne yapar: Apache Iceberg, Cloud Storage’daki dosyaların üzerine bir metaveri ve yapı katmanı ekleyerek veri bataklığı sorununu çözer. Verilerinizi taşımaz; bir dizin ve katalog görevi görerek onları düzenler ve yönetir. Sonuç olarak, özel bir depolama formatı olmadan ACID garantisi, zaman yolculuğu ve şema evrimi yetenekleri kazanırsınız. |
Iceberg’in endüstri standardı açık tablo formatı olarak başarısı üç temel özellikten kaynaklanmaktadır: motor bağımsız tasarımı (herhangi bir hesaplama motoru onu okuyabilir ve yazabilir), petabayt ölçeğinde bile metaverileri verimli bir şekilde ölçeklendirme yeteneği ve zaman yolculuğu ile şema evrimi gibi kritik özellikler için yerel destek.
Google Cloud Üzerinde Açık Bir Göl Evi İnşa Etme
01
Google Cloud StorageÖlçeklenebilir, düşük maliyetli nesne depolama. Gerçek veri dosyalarını (Parquet, Avro, ORC) ve Iceberg metaverilerini depolar. |
02
Apache IcebergAçık tablo formatı. Verileri taşımadan GCS dosyalarının üzerine işlemsel yönetim, şema zorunluluğu ve zaman yolculuğu ekler. |
03
BigQuery + BigLakeAnalitik motor ve depolama köprüsü. GCS üzerindeki Iceberg tablolarını yerel ambar düzeyinde performans ve yönetişim ile sorgular. |
BigLake: Depolama Köprüsü
BigLake, BigQuery’nin sorgu motoru ile GCS’de açık formatlarda saklanan veriler arasındaki kritik bağlantı noktasıdır. Bir Iceberg tablosunu BigQuery aracılığıyla sorguladığınızda, BigLake, BQ’nun sorgu motoruna bu verileri doğrudan veri gölünden sanki yerelmiş gibi okuması ve işlemesi talimatlarını verir. BigQuery’nin dahili tablolarının ardındaki güçlü paralel işlemeyi uygular. Veri hareket etmez, çoğaltılmaz.
|
BigLake dahili olarak nasıl çalışır: BigLake bir depolama motoru ve bağlayıcı olarak görev yapar. BigQuery’nin sorgu motoruna açık formatlı verileri (Apache Iceberg tabloları gibi) Cloud Storage’dan okuması için talimatlar vererek, verileri taşımadan veya çoğaltmadan düşük maliyetli esnek depolamayı güçlü sorgulama ve yönetişim ile birleştirir. |
En önemlisi, BigQuery, BigLake aracılığıyla Apache Iceberg için birinci sınıf, yerel desteğe sahiptir. Bölüm budama (partition pruning) ve veri kümeleme (data clustering) gibi gelişmiş optimizasyonlar için Iceberg’in metaverilerini anlar ve Iceberg tabloları üzerinde doğrudan UPDATE, DELETE ve MERGE ifadelerini destekler. Yerel bir ambar tablosunda bekleyeceğiniz DML işlemleri artık doğrudan GCS’deki açık formatlı verilerinize uygulanır.
BigLake Metastore: Tek Doğruluk Kaynağı
Birden fazla işlem motorunun verileri kopyalamadan veya metaverileri çoğaltmadan aynı Iceberg tablolarını paylaşmasını sağlamak için Google, tam yönetimli, sunucusuz bir metaveri servisi olan BigLake Metastore‘u sunar. Bu sayede, standart Apache Iceberg REST katalog arayüzü ile Iceberg REST spesifikasyonunu kullanan herhangi bir motor (Spark, Trino, Flink vb.) BigQuery’nin kullandığı merkezi kayıt defteri (central registry) üzerinden tabloları kaydedip okuyabilir.
Bunun güvenlik anlamında iki önemli sonucu vardır. Birincisi, kimlik bilgisi sağlama (credential vending): BigLake Metastore, temel GCS bucket’larına erişmek için bir servis hesabının izinlerini üstlenebilir, böylece analistler depolama katmanına doğrudan okuma/yazma erişimine ihtiyaç duymadan BigQuery üzerinden verileri sorgulayabilir. İkincisi, Dataplex Universal Catalog‘da bir kez tanımlanan merkezi politikalar (satır düzeyi veya sütun düzeyi güvenlik gibi) BigLake üzerinden sorgulama yapan her motorda tutarlı bir şekilde uygulanır.

Temel BigLake Yetenekleri
- Motorlar arası birlikte çalışabilirlik
- Kimlik bilgisi sağlama (Credential vending)
- Dataplex aracılığıyla birleşik yönetişim
- Iceberg REST Katalog desteği
- Iceberg üzerinde yerel DML (
UPDATE/DELETE/MERGE) - Sunucusuz, tam yönetimli
BigQuery’de BigLake Tabloları: Nasıl Çalışır?
Tabloyu kimin oluşturduğuna ve sahibinin kim olduğuna bağlı olarak, Iceberg verilerini BigQuery aracılığıyla sunmanın iki yolu vardır:
Harici BigLake tabloları (OSS tarafından oluşturulan): Spark gibi harici bir araç GCS üzerinde Iceberg tablosunu ve metaverilerini oluşturur, ardından bunları BigLake Metastore’a kaydeder. BigQuery bunu harici bir tablo olarak gösterir. BigLake, optimize edilmiş sorgu planlaması için Iceberg metaverilerini okur (bölüm budama ve kümeleme ipuçlarını uygular) ve BigQuery’nin Dremel motoru veri dosyalarını doğrudan sorgular. Hiçbir veri hareketi gerçekleşmez.
Apache Iceberg için BigLake tabloları (BigQuery tarafından yönetilen): Tam yönetimli bir deneyim isteyen ekipler için BigQuery, Iceberg tablosunu doğrudan oluşturabilir ve sahiplenebilir. Bu, GCS üzerinde aynı açık formatlı depolamayı sağlar, ancak tüm metaveri yönetimi BigQuery tarafından gerçekleştirilir. Hem okuma hem de tam DML işlemleri (INSERT, UPDATE, DELETE, MERGE) yerel olarak desteklenir ve size kendi GCS bucket’ınızda ambar düzeyinde yazma semantiği sağlar.
|
BigQuery’de birinci sınıf Iceberg desteği: BigQuery, BigLake aracılığıyla Apache Iceberg için yerel destek sunarak bölümlendirme ve kümeleme dahil gelişmiş optimizasyonlar için Iceberg’in metaverilerini anlar. Iceberg tabloları üzerinde sadece okumayı değil, doğrudan |
Gerçek Dünya Senaryosu
Pratikte Birleşik Göl Evi
Bir veri mühendisliği ekibi, ham olay verilerini almak ve dönüştürmek için Dataproc üzerinde Apache Spark kullanıyor. Çıktıyı GCS’de bir Iceberg tablosu olarak yazıyorlar ve Iceberg REST katalog API’si aracılığıyla BigLake Metastore’a kaydediyorlar. Tamamen BigQuery içinde çalışan bir veri analisti, herhangi bir veri hareketi, şema çevirisi veya işlem hattı yükü olmadan aynı Iceberg tablosuna karşı (UPDATE, DELETE ve MERGE işlemleri dahil) anında SQL çalıştırabilir. Dataplex’te tanımlanan yönetişim politikaları, tek bir kontrol düzleminden hem Spark yazıcısına hem de BigQuery okuyucusuna uygulanır.
Sonuç
BigLake metastore ve BigQuery kombinasyonu, Google Cloud üzerinde modern, açık bir veri gölü evi inşa etmek için sağlam bir çözüm sunar.
- BigLake, temel soyutlama katmanını sağlayarak Apache Iceberg ile otomatik veri yönetimi ve yerleşik yönetişim ile açık, yönetimli ve yüksek performanslı bir göl evi sağlar.
- BigQuery, Apache Iceberg açık tablo formatlarını doğrudan sorgulayabilen güçlü bir analitik motoru sunar.
Google Cloud; depolamayı hesaplamadan ayırarak, Apache Iceberg gibi açık standartları benimseyerek ve metaverileri BigLake metastore ile birleştirerek kurumların veri silolarını (data silos) yıkmalarına, maliyetleri düşürmelerine ve ham veriden eyleme dönüştürülebilir yapay zeka odaklı içgörülere giden yolculuklarını hızlandırmalarına yardımcı olur.
GCP üzerinde kurumsal düzeyde veri gölü evi inşa etmek ve ekipleriniz için gerçek üretkenlik kazanımları elde etmek için bizimle iletişime geçin.
Kaynaklar
BigLake harici tablolarına giriş | BigQuery | Google Cloud Dokümantasyonu
Yazan: Lae Lae Win
Yayınlanma Tarihi: 31.03.2026

Benzer Yazılar
BigQuery'de Üretken Yapay Zeka ve Makine Öğrenmesi: Hangi Yenilikler Var?
Nis 2, 2026 | Google CloudAçık Veri Gölü Evi (Lakehouse) Mimarisi: BigQuery, BigLake ve Apache Iceberg ile Veri Yönetimi
Mar 31, 2026 | Google CloudDialogflow CX'ten Sohbet Tabanlı Yapay Zeka Sistemlerine: Bilmeniz Gereken En Büyük Yenilikler
Mar 26, 2026 | Google CloudAkıllı Lojistik Merkezleri: Veri Odaklı Depolama ve Dağıtım Optimizasyonu
Mar 23, 2026 | BulutBulut Tabanlı Makine Öğrenmesi Modelleriyle Müşteri Kaybı Tahmini
Mar 9, 2026 | BulutÖne Çıkan Yazılar
Değişen Dünyanın Dili: VUCA ve BANI
Haz 28, 2022 | Dijital Pazarlama
Türkiyeli Yazılımcılara Aforizmalar
May 14, 2020 | Yazılım Geliştirme
SELinux Nedir? Varsayılan Güvenlik Politikasına Uymayan Durumlara Nasıl İzin Verilir?
Ağu 6, 2013 | Açık KaynakYapay Zeka Çalışma Arkadaşları: Google Illuminate ve NotebookLM Karşılaştırması
Kas 12, 2025 | Eğitim SektörüGoogle Haritalar API'si ile İşletmeniz için Navigasyonun Ötesinde Stratejiler
Nis 2, 2025 | Bulut