Veri ambarı, bir kuruluştaki heterojen kaynak sistemlerinden gelen verileri içeren merkezi bir entegre veritabanıdır. Veriler, tutarsızlıkları ortadan kaldırmak için dönüştürülür, verileri özetlemek için toplanır ve veri ambarına yüklenir. Bu veritabanına birden fazla kullanıcı tarafından erişilebilir, bu da bir kuruluştaki her grubun değerli, istikrarlı verilere erişmesini sağlar.
Heterojen kaynak sistemlerinden gelen büyük hacimli verilerin etkin bir şekilde işlenmesi için ETL (Çıkarma, Dönüştürme ve Yükleme) yazılımı paralel işlemeyi uygulamıştır.
Paralel işleme, boru hattı paralelliği ve bölüm paralelliği olarak ikiye ayrılır.
IBM Information Server veya DataStage, her iki paralel işleme yöntemini de kullanmamıza olanak tanır.
Boru Hattı Paralelliği:
DataStage ardışık düzen verilerini (mümkünse) bir aşamadan diğerine aktarır ve bunun gerçekleşmesi için hiçbir şey yapılması gerekmez. ETL (Çıkarma, Dönüştürme ve Yükleme) Eş zamanlı olarak çalışan bir işin tüm aşamalarında verileri eş zamanlı olarak işler. Aşağı akış süreci, veriler yukarı akışta mevcut olur olmaz başlayacaktır. Ardışık düzen paralelliği, bir diske ara depolama ihtiyacını ortadan kaldırır.
Bölme Paralelliği:
Çoğu bölümleme işleminin amacı, işlemciler arasında eşit bir yük sağlayarak, mümkün olduğunca eşit boyuta yakın bir bölüm kümesi elde etmektir. Bu bölüm, verileri bölümlere ayırarak çok büyük miktarda veriyi işlemek için idealdir. Her bölüm, iş aşamalarının ayrı bir örneği tarafından işlenir.
Boru hattı ve bölüm paralelliğini birleştirme:
İşlem hattı ve bölüm paralelliğini birleştirerek daha fazla performans kazancı elde edilebilir. Veriler bölümlenir ve bölümlenmiş veriler ardışık düzeni doldurur, böylece aşağı akış aşaması, yukarı akış hala çalışırken bölümlenmiş verileri işler. DataStage, bu paralel işleme yöntemlerini paralel işlerde kullanmamıza olanak tanır.
İş gereksinimlerine göre bölümlenmiş verilerin yeniden bölümlenmesi DataStage’de yapılabilir ve yeniden bölümleme verileri diske yüklenmeyecektir.
Paralel işleme ortamları:
DataStage işlerinizi yürüttüğünüz ortam, sisteminizin mimarisi ve donanım kaynakları tarafından tanımlanır.
Tüm paralel işleme ortamları şu şekilde kategorize edilebilir:
- SMP (Simetrik Çoklu İşlem)
- Kümeler veya MPP (Büyük Paralel İşleme)
SMP (simetrik çoklu işlem), paylaşılan bellek:
- Bazı donanım kaynakları işlemciler arasında paylaşılabilir.
- İşlemciler, paylaşılan bellek aracılığıyla iletişim kurar ve tek bir işletim sistemine sahiptir.
- Tüm CPU’lar sistem kaynaklarını paylaşır
MPP (büyük ölçüde paralel işleme), paylaşılan hiçbir şey:
- Bir grup bağlı SMP olarak bir MPP.
- Her işlemcinin donanım kaynaklarına özel erişimi vardır.
- MPP sistemleri fiziksel olarak aynı kutuya yerleştirilmiştir.
Küme Sistemleri:
- Ağlar aracılığıyla bağlanan UNIX sistemleri
- Küme sistemleri fiziksel olarak dağıtılabilir.
Bu kavramları çeşitli işleme yöntemleri ve ortamlarında anlamak, DataStage’deki genel paralel iş mimarisini anlamamı sağladı.