Azure Databricks nedir?

Azure Databricks, kurumsal düzeydeki verileri, analizleri ve yapay zeka çözümlerini büyük ölçekte oluşturmaya, dağıtmaya, paylaşmaya ve korumaya yönelik birleşik ve açık bir analiz platformudur. Databricks Veri Zekası Platformu, bulut hesabınızdaki bulut depolama ve güvenlikle tümleştirilir ve bulut altyapısını sizin adınıza yönetir ve dağıtır.

Veri zekası platformu nasıl çalışır?

Azure Databricks, verilerinizin benzersiz semantiğini anlamak için data lakehouse ile üretken yapay zeka kullanır. Ardından performansı otomatik olarak iyileştirir ve altyapıyı iş gereksinimlerinize uyacak şekilde yönetir.

Doğal dil işleme, işletmenizin dilini öğrenir, böylece kendi sözcüklerinizle bir soru sorarak verileri arayabilir ve keşfedebilirsiniz. Doğal dil yardımı, kod yazmanıza, hataları gidermenize ve belgelerde yanıtlar bulmanıza yardımcı olur.

Son olarak, verileriniz ve yapay zeka uygulamalarınız güçlü idare ve güvenliğe güvenebilir. Veri gizliliği ve IP denetiminden ödün vermeden OpenAI gibi API'leri tümleştirebilirsiniz.

Azure Databricks ne için kullanılır?

Azure Databricks, iş zekasından üretken yapay zekaya kadar veri kümelerini işlemek, depolamak, paylaşmak, analiz etmek, modellemek ve para kazanmak için veri kaynaklarınızı tek bir platforma bağlamanıza yardımcı olan araçlar sağlar.

Azure Databricks çalışma alanı, aşağıdakiler de dahil olmak üzere çoğu veri görevi için birleşik bir arabirim ve araçlar sağlar:

  • Özellikle ETL'de veri işleme zamanlaması ve yönetimi
  • Panolar ve görselleştirmeler oluşturma
  • Güvenlik, idare, yüksek kullanılabilirlik ve olağanüstü durum kurtarmayı yönetme
  • Veri bulma, ek açıklama ve araştırma
  • Makine öğrenmesi (ML) modelleme, izleme ve model sunma
  • Üretken yapay zeka çözümleri

açık kaynak ile yönetilen tümleştirme

Databricks' in açık kaynak topluluğuna güçlü bir taahhüdü vardır. Databricks, Databricks Runtime sürümlerindeki açık kaynak tümleştirmelerinin güncelleştirmelerini yönetir. Aşağıdaki teknolojiler başlangıçta Databricks çalışanları tarafından oluşturulan açık kaynak projelerdir:

Araçlar ve programlı erişim

Azure Databricks, aşağıdakiler gibi iyileştirilmiş performans ve kullanım kolaylığı eklemek için bu teknolojileri tümleştirip genişleten bir dizi özel araç tutar:

Çalışma alanı kullanıcı arabirimine ek olarak, aşağıdaki araçlarla Azure Databricks ile program aracılığıyla etkileşim kurabilirsiniz:

  • REST API
  • CLI
  • Terraform

Azure Databricks, Azure ile nasıl çalışır?

Azure Databricks platform mimarisi iki birincil bölümden oluşur:

  • Azure Databricks tarafından platformu ve hizmetleri dağıtmak, yapılandırmak ve yönetmek için kullanılan altyapı.
  • Azure Databricks ve şirketiniz tarafından işbirliğiyle yönetilen müşteriye ait altyapı.

Birçok kurumsal veri şirketinden farklı olarak Azure Databricks, platformu kullanmak için verilerinizi özel depolama sistemlerine geçirmeye zorlamaz. Bunun yerine, Azure Databricks platformu ile bulut hesabınız arasında güvenli tümleştirmeler yapılandırarak bir Azure Databricks çalışma alanı yapılandırabilirsiniz ve ardından Azure Databricks, verileri nesne depolamada ve denetlediğiniz diğer tümleşik hizmetlerde işlemek ve depolamak için hesabınızdaki bulut kaynaklarını kullanarak işlem kümelerini dağıtır.

Unity Kataloğu bu ilişkiyi daha da genişleterek Azure Databricks'in içinden tanıdık SQL söz dizimlerini kullanarak verilere erişim izinlerini yönetmenizi sağlar.

Azure Databricks çalışma alanları, dünyanın en büyük ve en güvenlik odaklı şirketlerinden bazılarının güvenlik ve ağ gereksinimlerini karşılar. Azure Databricks, yeni kullanıcıların platforma başlamasını kolaylaştırır. Özelleştirmeleri sınırlamadan ve deneyimli verileri, operasyonları ve güvenlik ekiplerinin gerektirdiği denetimi sınırlamadan bulut altyapısıyla çalışmanın birçok yükünü ve endişesini ortadan kaldırır.

Azure Databricks için yaygın kullanım örnekleri nelerdir?

Azure Databricks'te kullanım örnekleri, platformda işlenen veriler ve işlerinin temel bir parçası olarak verilerle çalışan çalışanların birçok kişisi kadar farklılık gösterir. Aşağıdaki kullanım örnekleri, kuruluşunuzdaki kullanıcıların kritik iş işlevlerini ve kararlarını yönlendiren verileri işlemek, depolamak ve çözümlemek için gerekli görevleri gerçekleştirmek için Azure Databricks'i nasıl kullanabileceğini vurgular.

Kurumsal data lakehouse oluşturma

Data Lakehouse, kurumsal veri çözümlerini hızlandırmak, basitleştirmek ve birleştirmek için kurumsal veri ambarlarının ve veri göllerinin güçlü yanlarını birleştirir. Veri mühendisleri, veri bilimcileri, analistler ve üretim sistemlerinin tümü data lakehouse'ı tek gerçeklik kaynağı olarak kullanabilir ve tutarlı verilere zamanında erişim sağlayabilir ve birçok dağıtılmış veri sistemi oluşturma, bakım ve eşitlemenin karmaşıklıklarını azaltabilir. Bkz. Data Lakehouse nedir?.

ETL ve veri mühendisliği

Panolar oluştururken veya yapay zeka uygulamalarına güç sağlarken, veri mühendisliği verilerin kullanılabilir, temiz ve verimli bulma ve kullanım sağlayan veri modellerinde depolandığından emin olarak veri odaklı şirketler için omurga sağlar. Azure Databricks, Rakipsiz bir ETL (ayıklama, dönüştürme, yükleme) deneyimi sağlamak için Apache Spark'ın gücünü Delta Lake ve özel araçlarla birleştirir. SQL, Python ve Scala'yı kullanarak ETL mantığı oluşturabilir ve ardından yalnızca birkaç tıklamayla zamanlanmış iş dağıtımlarını düzenleyebilirsiniz.

Delta Live Tables , veri kümeleri arasındaki bağımlılıkları akıllı bir şekilde yöneterek ve özelliklerinize göre verilerin zamanında ve doğru bir şekilde teslim edilmesini sağlamak için üretim altyapısını otomatik olarak dağıtıp ölçeklendirerek ETL'yi daha da basitleştirir.

Azure Databricks, bulut nesne depolamasından ve veri göllerinden data lakehouse'a artımlı ve eşzamanlı olarak veri yüklemeye yönelik verimli ve ölçeklenebilir bir araç olan Otomatik Yükleyici de dahil olmak üzere veri alımı için bir dizi özel araç sağlar.

Makine öğrenmesi, yapay zeka ve veri bilimi

Azure Databricks makine öğrenmesi, MLflow ve Machine Learning için Databricks Runtime dahil olmak üzere veri bilimciler ve ML mühendislerinin ihtiyaçlarına göre uyarlanmış bir araç paketiyle platformun temel işlevselliğini genişletir.

Büyük dil modelleri ve üretken yapay zeka

Machine Learning için Databricks Runtime, önceden eğitilmiş mevcut modelleri veya diğer açık kaynak kitaplıkları iş akışınızla tümleştirmenize olanak sağlayan Hugging Face Transformers gibi kitaplıklar içerir. Databricks MLflow tümleştirmesi, MLflow izleme hizmetini transformatör işlem hatları, modeller ve işleme bileşenleriyle kullanmayı kolaylaştırır. Buna ek olarak, John Snow Labs gibi iş ortaklarının OpenAI modellerini veya çözümlerini Databricks iş akışlarınızda tümleştirebilirsiniz.

Azure Databricks ile verilerinizdeki LLM'yi özel göreviniz için özelleştirebilirsiniz. Yüz Tanıma ve DerinSpeed gibi açık kaynak araçlarının desteğiyle, etki alanınız ve iş yükünüz için daha fazla doğruluk elde etmek için verimli bir şekilde bir temel LLM alabilir ve kendi verilerinizle eğitime başlayabilirsiniz.

Ayrıca Azure Databricks, SQL veri analistlerinin doğrudan veri işlem hatları ve iş akışları içinde OpenAI dahil olmak üzere LLM modellerine erişmek için kullanabileceği yapay zeka işlevleri sağlar. Bkz . Azure Databricks'te Yapay Zeka İşlevleri.

Veri ambarı, analiz ve BI

Azure Databricks, analiz sorguları çalıştırmaya yönelik güçlü bir platform sağlamak için kullanıcı dostu URI'leri uygun maliyetli işlem kaynakları ve sonsuz ölçeklenebilir, uygun fiyatlı depolama ile birleştirir. Yöneticiler ölçeklenebilir işlem kümelerini SQL ambarları olarak yapılandırarak son kullanıcıların bulutta çalışmanın karmaşıklıklarından endişe duymadan sorgu yürütmesine olanak sağlar. SQL kullanıcıları, SQL sorgu düzenleyicisini kullanarak veya not defterlerinde lakehouse'daki verilere karşı sorgu çalıştırabilir. Not defterleri SQL'e ek olarak Python, R ve Scala'yı destekler ve kullanıcıların eski panolarda bulunan görselleştirmelerin yanı sıra markdown'da yazılmış bağlantılar, resimler ve açıklama eklemelerine olanak tanır.

Veri idaresi ve güvenli veri paylaşımı

Unity Kataloğu, data lakehouse için birleşik bir veri idaresi modeli sağlar. Bulut yöneticileri Unity Kataloğu için kaba erişim denetimi izinlerini yapılandırır ve tümleştirir ve ardından Azure Databricks yöneticileri ekiplerin ve kişilerin izinlerini yönetebilir. Ayrıcalıklar, kullanıcı dostu URI'ler veya SQL söz dizimi aracılığıyla erişim denetim listeleri (ACL' ler) ile yönetilir ve bu da veritabanı yöneticilerinin buluta özel kimlik erişim yönetimi (IAM) ve ağ üzerinde ölçeklendirmeye gerek kalmadan verilere erişimin güvenliğini sağlamasını kolaylaştırır.

Unity Kataloğu, bulutta güvenli analiz çalıştırmayı basitleştirir ve hem yöneticiler hem de platformun son kullanıcıları için gereken yeniden geçiş veya yükseltmeyi sınırlamaya yardımcı olan bir sorumluluk bölümü sağlar. Unity Kataloğu nedir? bölümüne bakın.

Lakehouse, kuruluşunuzda veri paylaşımını tabloya veya görünüme sorgu erişimi vermek kadar basit hale getirir. Unity Kataloğu, güvenli ortamınızın dışında paylaşım için Delta Sharing'in yönetilen bir sürümünü içerir.

DevOps, CI/CD ve görev düzenleme

ETL işlem hatları, ML modelleri ve analiz panoları için geliştirme yaşam döngülerinin her biri kendi benzersiz zorluklarını ortaya koymaktadır. Azure Databricks, tüm kullanıcılarınızın tek bir veri kaynağından yararlanmasına olanak sağlayarak yinelenen çalışmaları ve eşitlenmemiş raporlamayı azaltır. Ayrıca kod ve üretim kaynaklarını sürüm oluşturma, otomatikleştirme, zamanlama, dağıtma için ortak araçlardan oluşan bir paket sağlayarak izleme, düzenleme ve işlemler için ek yükünüzü basitleştirebilirsiniz. İşler Azure Databricks not defterlerini, SQL sorgularını ve diğer rastgele kodları zamanlar. Git klasörleri , Azure Databricks projelerini bir dizi popüler git sağlayıcısıyla eşitlemenize olanak tanır. Araçlara tam bir genel bakış için bkz. Geliştirici araçları.

Gerçek zamanlı ve akış analizi

Azure Databricks, akış verileri ve artımlı veri değişiklikleriyle çalışmak için Apache Spark Yapılandırılmış Akış'ı kullanır. Yapılandırılmış Akış, Delta Lake ile sıkı bir şekilde tümleşir ve bu teknolojiler hem Delta Live Tabloları hem de Otomatik Yükleyici için temel oluşturur. Bkz . Azure Databricks'te akış.