Müşterilerimiz İletişim EN

Açık Veri Gölü Evi (Lakehouse) Mimarisi: BigQuery, BigLake ve Apache Iceberg ile Veri Yönetimi


Modern veri iş yüklerini yöneten kurumlar sürekli olarak veri ambarının (data warehouse) yapılandırılmış ve yönetimli performansı ile veri gölünün (data lake) maliyet etkin ve esnek depolaması arasında kalıyorlar. Yıllarca ekipler ya veri ambarının katı yapısı için yüksek ücretler ödediler ya da yönetilmeyen bir gölün getirdiği karmaşayı kabul ettiler. Veri gölü evi (data lakehouse) mimarisi bu gerilimi çözüyor. Google Cloud üzerinde BigLake, Apache Iceberg ve BigQuery kombinasyonu bu mimariyi hayata geçirmek için canlıda kullanıma hazır bir yöntem sunuyor.


Bu yazıda, mimari altyapıyı temel prensiplerden başlayarak açıklayarak her bir servisin arka planda gerçekte ne yaptığını netleştireceğiz; bunların nasıl birlikte çalışabileceğini ve bütünleşik bir göl evine dönüştüğünü göstereceğiz.


Veri Ambarı, Veri Gölü ve Veri Gölü Evi Evrimi


1. Veri Ambarı (Data Warehouse)

Veri ambarı, iş zekası için uzun süredir altın standart olmuştur. Yazma sırasında şema (schema-on-write) modelini kullanır; yani verileri yüklemeden önce şemayı tanımlarsınız. Bu katı yapı; güçlü SQL performansı, ACID (Atomicity [Bölünmezlik], Consistency [Tutarlılık], Isolation [Yalıtım], Durability [Dayanıklılık]) prensiplerine tam uyumlu işlem garantisi ve gelişmiş yönetişim araçları sağlar. Maliyeti ise; hesaplama birimine (compute) sıkıca bağlı özel depolama, TB başına yüksek fiyatlandırma ve yapılandırılmamış veya yarı yapılandırılmış veriler için destek sunulmamasıdır.


2. Veri Gölü (Data Lake)

Veri gölü bu modeli tersine çevirir. Her türden ham veri (yapılandırılmış, yarı yapılandırılmış, yapılandırılmamış) nesne depolama birimlerinde ucuza saklanır ve sorgulama sırasında şema uygulanır (okuma sırasında şema (schema-on-read)). Bu özellik, veri göllerini makine öğrenmesi ve arşivleme kullanım senaryoları için ideal kılar. Dezavantajı ise şudur: İşlem garantisi olmadığında veri kalitesi zamanla bozulur. Göller sıklıkla “veri bataklıklarına” (data swamps) dönüşür.


3. Veri Gölü Evi (Data Lakehouse)

Göl evi, düşük maliyetli nesne depolamada saklanan açık formatlı dosyaların üzerine bir yönetim ve metaveri (metadata) katmanı ekleyerek herhangi bir platform bağımlılığı (lock-in) olmaksızın ACID işlemleri, şema zorunluluğu ve yönetişim sunar. Hem iş zekası/SQL hem de makine öğrenmesi ve yapay zeka iş yüklerine aynı depolama katmanından hizmet verecek şekilde tasarlanmıştır.



Temel Altyapı: Apache Iceberg

Bir veri gölünün bir veri ambarı gibi davranması için ham dosyaların bir yönetim katmanına ihtiyacı vardır. Apache Iceberg tam olarak bunu sağlar. En önemlisi, Iceberg verilerinizi taşımaz veya kopyalamaz. Bunun yerine, Cloud Storage’da halihazırda saklanan dosyaların üzerine bir metaveri ve yapı katmanı ekleyerek veri dosyalarınız için bir dizin ve katalog görevi üstlenir. Bir Iceberg tablosunu sorguladığınızda, GCS’de her zaman var olan aynı Parquet veya Avro dosyalarını sorgularsınız; Iceberg bunları yalnızca sürümlenmiş, işlemsel bir tablo olarak erişilebilir hale getirir.



Iceberg gerçekte ne yapar: Apache Iceberg, Cloud Storage’daki dosyaların üzerine bir metaveri ve yapı katmanı ekleyerek veri bataklığı sorununu çözer. Verilerinizi taşımaz; bir dizin ve katalog görevi görerek onları düzenler ve yönetir. Sonuç olarak, özel bir depolama formatı olmadan ACID garantisi, zaman yolculuğu ve şema evrimi yetenekleri kazanırsınız.



Iceberg’in endüstri standardı açık tablo formatı olarak başarısı üç temel özellikten kaynaklanmaktadır: motor bağımsız tasarımı (herhangi bir hesaplama motoru onu okuyabilir ve yazabilir), petabayt ölçeğinde bile metaverileri verimli bir şekilde ölçeklendirme yeteneği ve zaman yolculuğu ile şema evrimi gibi kritik özellikler için yerel destek.


Google Cloud Üzerinde Açık Bir Göl Evi İnşa Etme


01

Google Cloud Storage

Ölçeklenebilir, düşük maliyetli nesne depolama. Gerçek veri dosyalarını (Parquet, Avro, ORC) ve Iceberg metaverilerini depolar.

02

Apache Iceberg

Açık tablo formatı. Verileri taşımadan GCS dosyalarının üzerine işlemsel yönetim, şema zorunluluğu ve zaman yolculuğu ekler.

03

BigQuery + BigLake

Analitik motor ve depolama köprüsü. GCS üzerindeki Iceberg tablolarını yerel ambar düzeyinde performans ve yönetişim ile sorgular.


BigLake: Depolama Köprüsü

BigLake, BigQuery’nin sorgu motoru ile GCS’de açık formatlarda saklanan veriler arasındaki kritik bağlantı noktasıdır. Bir Iceberg tablosunu BigQuery aracılığıyla sorguladığınızda, BigLake, BQ’nun sorgu motoruna bu verileri doğrudan veri gölünden sanki yerelmiş gibi okuması ve işlemesi talimatlarını verir. BigQuery’nin dahili tablolarının ardındaki güçlü paralel işlemeyi uygular. Veri hareket etmez, çoğaltılmaz.



BigLake dahili olarak nasıl çalışır: BigLake bir depolama motoru ve bağlayıcı olarak görev yapar. BigQuery’nin sorgu motoruna açık formatlı verileri (Apache Iceberg tabloları gibi) Cloud Storage’dan okuması için talimatlar vererek, verileri taşımadan veya çoğaltmadan düşük maliyetli esnek depolamayı güçlü sorgulama ve yönetişim ile birleştirir.



En önemlisi, BigQuery, BigLake aracılığıyla Apache Iceberg için birinci sınıf, yerel desteğe sahiptir. Bölüm budama (partition pruning) ve veri kümeleme (data clustering) gibi gelişmiş optimizasyonlar için Iceberg’in metaverilerini anlar ve Iceberg tabloları üzerinde doğrudan UPDATE, DELETE ve MERGE ifadelerini destekler. Yerel bir ambar tablosunda bekleyeceğiniz DML işlemleri artık doğrudan GCS’deki açık formatlı verilerinize uygulanır.


BigLake Metastore: Tek Doğruluk Kaynağı

Birden fazla işlem motorunun verileri kopyalamadan veya metaverileri çoğaltmadan aynı Iceberg tablolarını paylaşmasını sağlamak için Google, tam yönetimli, sunucusuz bir metaveri servisi olan BigLake Metastore‘u sunar. Bu sayede, standart Apache Iceberg REST katalog arayüzü ile Iceberg REST spesifikasyonunu kullanan herhangi bir motor (Spark, Trino, Flink vb.) BigQuery’nin kullandığı merkezi kayıt defteri (central registry) üzerinden tabloları kaydedip okuyabilir.


Bunun güvenlik anlamında iki önemli sonucu vardır. Birincisi, kimlik bilgisi sağlama (credential vending): BigLake Metastore, temel GCS bucket’larına erişmek için bir servis hesabının izinlerini üstlenebilir, böylece analistler depolama katmanına doğrudan okuma/yazma erişimine ihtiyaç duymadan BigQuery üzerinden verileri sorgulayabilir. İkincisi, Dataplex Universal Catalog‘da bir kez tanımlanan merkezi politikalar (satır düzeyi veya sütun düzeyi güvenlik gibi) BigLake üzerinden sorgulama yapan her motorda tutarlı bir şekilde uygulanır.


Kaynak

Temel BigLake Yetenekleri

  • Motorlar arası birlikte çalışabilirlik
  • Kimlik bilgisi sağlama (Credential vending)
  • Dataplex aracılığıyla birleşik yönetişim
  • Iceberg REST Katalog desteği
  • Iceberg üzerinde yerel DML (UPDATE / DELETE / MERGE)
  • Sunucusuz, tam yönetimli

BigQuery’de BigLake Tabloları: Nasıl Çalışır?

Tabloyu kimin oluşturduğuna ve sahibinin kim olduğuna bağlı olarak, Iceberg verilerini BigQuery aracılığıyla sunmanın iki yolu vardır:


Harici BigLake tabloları (OSS tarafından oluşturulan): Spark gibi harici bir araç GCS üzerinde Iceberg tablosunu ve metaverilerini oluşturur, ardından bunları BigLake Metastore’a kaydeder. BigQuery bunu harici bir tablo olarak gösterir. BigLake, optimize edilmiş sorgu planlaması için Iceberg metaverilerini okur (bölüm budama ve kümeleme ipuçlarını uygular) ve BigQuery’nin Dremel motoru veri dosyalarını doğrudan sorgular. Hiçbir veri hareketi gerçekleşmez.


Apache Iceberg için BigLake tabloları (BigQuery tarafından yönetilen): Tam yönetimli bir deneyim isteyen ekipler için BigQuery, Iceberg tablosunu doğrudan oluşturabilir ve sahiplenebilir. Bu, GCS üzerinde aynı açık formatlı depolamayı sağlar, ancak tüm metaveri yönetimi BigQuery tarafından gerçekleştirilir. Hem okuma hem de tam DML işlemleri (INSERT, UPDATE, DELETE, MERGE) yerel olarak desteklenir ve size kendi GCS bucket’ınızda ambar düzeyinde yazma semantiği sağlar.



BigQuery’de birinci sınıf Iceberg desteği: BigQuery, BigLake aracılığıyla Apache Iceberg için yerel destek sunarak bölümlendirme ve kümeleme dahil gelişmiş optimizasyonlar için Iceberg’in metaverilerini anlar. Iceberg tabloları üzerinde sadece okumayı değil, doğrudan UPDATE, DELETE ve MERGE ifadelerini de destekler.



Gerçek Dünya Senaryosu


Pratikte Birleşik Göl Evi

Bir veri mühendisliği ekibi, ham olay verilerini almak ve dönüştürmek için Dataproc üzerinde Apache Spark kullanıyor. Çıktıyı GCS’de bir Iceberg tablosu olarak yazıyorlar ve Iceberg REST katalog API’si aracılığıyla BigLake Metastore’a kaydediyorlar. Tamamen BigQuery içinde çalışan bir veri analisti, herhangi bir veri hareketi, şema çevirisi veya işlem hattı yükü olmadan aynı Iceberg tablosuna karşı (UPDATE, DELETE ve MERGE işlemleri dahil) anında SQL çalıştırabilir. Dataplex’te tanımlanan yönetişim politikaları, tek bir kontrol düzleminden hem Spark yazıcısına hem de BigQuery okuyucusuna uygulanır.


Sonuç

BigLake metastore ve BigQuery kombinasyonu, Google Cloud üzerinde modern, açık bir veri gölü evi inşa etmek için sağlam bir çözüm sunar.


  • BigLake, temel soyutlama katmanını sağlayarak Apache Iceberg ile otomatik veri yönetimi ve yerleşik yönetişim ile açık, yönetimli ve yüksek performanslı bir göl evi sağlar.
  • BigQuery, Apache Iceberg açık tablo formatlarını doğrudan sorgulayabilen güçlü bir analitik motoru sunar.

Google Cloud; depolamayı hesaplamadan ayırarak, Apache Iceberg gibi açık standartları benimseyerek ve metaverileri BigLake metastore ile birleştirerek kurumların veri silolarını (data silos) yıkmalarına, maliyetleri düşürmelerine ve ham veriden eyleme dönüştürülebilir yapay zeka odaklı içgörülere giden yolculuklarını hızlandırmalarına yardımcı olur.


GCP üzerinde kurumsal düzeyde veri gölü evi inşa etmek ve ekipleriniz için gerçek üretkenlik kazanımları elde etmek için bizimle iletişime geçin.


Kaynaklar

BigLake harici tablolarına giriş | BigQuery | Google Cloud Dokümantasyonu

BigQuery dokümantasyonu | Google Cloud Dokümantasyonu


Yazan: Lae Lae Win

Yayınlanma Tarihi: 31.03.2026



Kategoriler

Tümü Açık Kaynak (27) Android Anthos Çekirdekten Yetişenler Çevik Metodoloji Çocuklar ve Teknoloji (2) Ödeme Sistemleri (2) Üretim Sektörü (5) B2B Pazarlama (5) Bamboo Büyük Ölçekli Şirketler (4) BT Bulut (160) Buluta Geçiş (19) Bulutta Yerel Yazılım Geliştirme (4) C++ Chef ClickHouse Dayanıklılık DevOps (13) Dijital Pazarlama (12) Dijital Yerli Firmalar (3) Django (2) E-ticaret (8) Enerji Sektörü (2) Eğitim Sektörü (8) Felaket Kurtarma (2) Finansal Hizmetler (4) FinOps (3) Firebase (10) Flutter Gayrimenkul Sektörü Güvenlik (15) Git Golang (2) Google Cloud (114) Google Labs (14) Google Maps (2) Google Workspace (29) Helm Hibrit ve Çoklu Bulut (8) JavaScript Kadınlar ve STEM (3) Kamu Sektörü (2) KOBİ (5) Kubernetes (5) Kullandığımız Teknolojiler (24) Kullanıcı Arayüzü ve Kullanıcı Deneyimi Linux (6) Looker (7) MariaDB Mobil Uygulama Geliştirme (2) MySQL OpenStack (4) Oyun Sektörü (15) Perakende (14) PostgreSQL Proje Metodolojileri Python (7) Sadakat Programı (5) Sağlık ve Yaşam Bilimleri Sektörü (3) Sürdürülebilirlik (6) Sektöre Özgü Bulut Çözümleri (42) Selenium (2) Sigorta Sektörü Sistem Mimarisi (7) Tüketici Ürünleri (2) Tedarik Zinciri ve Lojistik (4) Teknoloji, Medya, Telekom (3) Terraform Test Etme (4) Turizm ve Eğlence (6) Ulaşım Sektörü (2) Uygulama Modernizasyonu Veri Analitiği (39) Veri Bilimi (2) Veri Depolama Veri Görselleştirme (7) Veri Tabanı (4) Versiyon Kontrolü Yapay Zeka - Makine Öğrenmesi (155) Yasal Uyum Yazılım Geliştirme (9) Yazılım Tarihi (3) Yazılımcı Deneyimi (8) İK Uygulamaları (10) İnşaat Sektörü İşe Alım (7)
Daha Fazla Kategori Göster >> Kategorileri Gizle >>

Kartaca sitesinden daha fazla şey keşfedin

Okumaya devam etmek ve tüm arşive erişim kazanmak için hemen abone olun.

Okumaya Devam Edin