Amazon S3'i kopyalama etkinliğinde yapılandırma
Bu makalede, verileri Amazon S3'ten ve Amazon S3'e kopyalamak için veri işlem hattında kopyalama etkinliğinin nasıl kullanılacağı özetlenmiştir.
Gerekli izinler
Amazon S3'ten veri kopyalamak için Amazon S3 nesne işlemleri için size şu izinlerin verildiğinden emin olun: s3:GetObject
ve s3:GetObjectVersion
.
Ayrıca, s3:ListAllMyBuckets
bağlantıyı test etme ve kökten gözatma gibi işlemler için de s3:ListBucket
/s3:GetBucketLocation
izinler gereklidir.
Amazon S3 izinlerinin tam listesi için AWS sitesindeki bir İlkede İzinleri Belirtme bölümüne gidin.
Desteklenen biçim
Amazon S3 aşağıdaki dosya biçimlerini destekler. Biçim tabanlı ayarlar için her makaleye bakın.
- Avro biçimi
- İkili biçim
- Sınırlandırılmış metin biçimi
- Excel biçimi
- JSON biçimi
- ORC biçimi
- Parquet biçimi
- XML biçimi
Desteklenen yapılandırma
Kopyalama etkinliği altındaki her sekmenin yapılandırması için sırasıyla aşağıdaki bölümlere gidin.
Genel
Genel ayarlar sekmesini yapılandırmak için Genel ayarlar kılavuzuna bakın.
Source
Kopyalama etkinliğinin Kaynak sekmesi altında Amazon S3 için aşağıdaki özellikler desteklenir.
Aşağıdaki özellikler gereklidir:
Veri deposu türü: Dış'ı seçin.
Bağlan ion: Bağlantı listesinden bir Amazon S3 bağlantısı seçin. Bağlantı yoksa Yeni'yi seçerek yeni bir Amazon bağlantısı oluşturun.
Bağlan türü: Bağlantı türünüz için Amazon S3'i seçin.
Dosya yolu türü: Dosya yolu, Önek, Joker karakter dosya yolu veya Dosya listesi'ni dosya yolu türünüz olarak seçebilirsiniz. Her ayarın yapılandırması şöyledir:
Dosya yolu: Bu türü seçerseniz, veriler verilen demetten veya belirtilen demet ve klasör yolundan kopyalanabilir.
Ön ek: Bu türü seçerseniz Demet ve Ön Ek'i belirtin.
Demet: S3 demet adını belirtin. Bu gereklidir.
Ön ek: Kaynak S3 dosyalarını filtrelemek için verilen demetin altındaki S3 anahtar adının ön ekini belirtin. Adları ile
bucket/this_prefix
başlayan S3 anahtarları seçilir. S3'ün hizmet tarafı filtresini kullanır ve bu da joker karakter filtresinden daha iyi performans sağlar.Ön ek kullanıp koruma hiyerarşisi ile dosya tabanlı hedefe kopyalamayı seçtiğinizde, ön ekteki son "/" öğesinin korunacağı alt yolu not edin. Örneğin, kaynağınız
bucket/folder/subfolder/file.txt
var ve ön eki olarakfolder/sub
yapılandırdığınızda, korunan dosya yolu olursubfolder/file.txt
.
Joker karakter dosya yolu: Bu türü seçerseniz Demet ve Joker karakter yollarını belirtin.
Demet: S3 demet adını belirtin. Bu gereklidir.
Joker karakter yolları: Kaynak klasörlerinizi veya dosyalarınızı filtrelemek için verilen demetinizin altında joker karakterler içeren klasörü veya dosya yolunu belirtin.
İzin verilen joker karakterler şunlardır:
*
(sıfır veya daha fazla karakterle eşleşir) ve?
(sıfır veya tek karakterle eşleşir). Klasör adınızın içinde joker karakter veya bu kaçış karakteri varsa kaçış için kullanın^
. Klasör ve dosya filtresi örnekleri'ndeki diğer örneklere bakın. Joker klasör yolu: Kaynak klasörleri filtrelemek için verilen demetin altında joker karakterlerin bulunduğu klasör yolu.Joker dosya adı: Kaynak dosyaları filtrelemek için verilen demet ve klasör yolunun (veya joker klasör yolunun) altında joker karakterler bulunan dosya adı.
Dosya listesi: Bu türü seçerseniz, belirli bir dosya kümesinin kopyalandığını belirtmek için Klasör yolunu ve Dosya yolu listesini belirtin. Kopyalamak istediğiniz dosyaların listesini içeren bir metin dosyasının üzerine gelin. Bu dosya, yapılandırılan yolun göreli yolu olan satır başına bir dosyadır. Daha fazla örnek için Dosya listesi örnekleri'ne gidin.
- Klasör yolu: Verilen demet altındaki klasörün yolunu belirtin. Bu gereklidir.
- Dosya listesinin yolu: Kopyalamak istediğiniz dosyaların listesini içeren metin dosyasının yolunu belirtin.
Özyinelemeli olarak: Verilerin alt klasörlerden mi yoksa yalnızca belirtilen klasörden mi özyinelemeli olarak okunacağını belirtin. Özyinelemeli olarak seçildiğinde ve hedef dosya tabanlı bir depo olduğunda, hedefte boş bir klasör veya alt klasör kopyalanır veya oluşturulmaz. Bu özellik varsayılan olarak seçilidir ve Dosya listesinin yolunu yapılandırdığınızda uygulanmaz.
Dosya biçimi: Açılan listeden uygulanan dosya biçimini seçin. Dosya biçimini yapılandırmak için Ayarlar seçin. Farklı dosya biçimlerinin ayarları için ayrıntılı bilgi için Desteklenen biçimdeki makalelere bakın.
Gelişmiş'in altında aşağıdaki alanları belirtebilirsiniz:
En son değiştirilene göre filtrele: Dosyalar, belirttiğiniz son değiştirme tarihlerine göre filtrelenir. Bu özellik, dosya yolu türünüzü Dosya listesi olarak yapılandırdığınızda geçerli değildir.
- Başlangıç saati (UTC): Son değiştirme süreleri yapılandırılan saatten büyük veya buna eşitse dosyalar seçilir.
- Bitiş saati (UTC): Son değiştirme süreleri yapılandırılan saatten kısaysa dosyalar seçilir.
Başlangıç saati (UTC) tarih saat değerine sahipse ancak Bitiş saati (UTC) NULL olduğunda, son değiştirilen özniteliği tarih saat değerinden büyük veya buna eşit olan dosyaların seçileceği anlamına gelir. Bitiş saati (UTC) tarih saat değerine sahipse ancak Başlangıç saati (UTC) NULL olduğunda, son değiştirilen özniteliği tarih saat değerinden küçük olan dosyaların seçileceği anlamına gelir. Özellikler NULL olabilir; başka bir deyişle verilere hiçbir dosya özniteliği filtresi uygulanmaz.
Bölüm bulmayı etkinleştir: Bölümlerin dosya yolundan ayrıştırılıp ayrıştırılmayacağını ve ek kaynak sütunlar olarak eklenip eklenmeyeceğini belirtin. Varsayılan olarak seçili değildir ve ikili dosya biçimini kullandığınızda desteklenmez.
Bölüm kök yolu: Bölüm bulma etkinleştirildiğinde, bölümlenmiş klasörleri veri sütunları olarak okumak için mutlak kök yolu belirtin.
Belirtilmezse, varsayılan olarak,
- Kaynakta dosya yolu veya dosya listesi kullandığınızda, bölüm kök yolu yapılandırdığınız yoldur.
- Joker karakter klasör filtresi kullandığınızda, bölüm kök yolu ilk joker karakterden önceki alt yoldur.
- Ön ek kullandığınızda, bölüm kök yolu son "/" yolundan önceki alt yoldur.
Örneğin, yolu olarak
root/folder/year=2020/month=08/day=27
yapılandırdığınız varsayılır:- Bölüm kök yolunu olarak
root/folder/year=2020
belirtirseniz kopyalama etkinliği, dosyaların içindeki sütunlara ek olarak sırasıyla "08" ve "27" değerine sahip iki sütun daha oluşturur. - Bölüm kök yolu belirtilmezse ek sütun oluşturulmaz.
Maksimum eşzamanlı bağlantı: Etkinlik çalıştırması sırasında veri deposuna kurulan eş zamanlı bağlantıların üst sınırı. Yalnızca eşzamanlı bağlantıları sınırlamak istediğinizde bir değer belirtin.
Ek sütunlar: Kaynak dosyaların göreli yolunu veya statik değerini depolamak için ek veri sütunları ekleyin. İfade, ikincisi için desteklenir.
Hedef
Kopyalama etkinliğinin Hedef sekmesi altında Amazon S3 için aşağıdaki özellikler desteklenir.
Aşağıdaki özellikler gereklidir:
- Veri deposu türü: Dış'ı seçin.
- Bağlan ion: Bağlantı listesinden bir Amazon S3 bağlantısı seçin. Bağlantı yoksa Yeni'yi seçerek yeni bir Amazon bağlantısı oluşturun.
- Bağlan türü: Bağlantı türünüz için Amazon S3'i seçin.
- Dosya yolu: Veriler verilen demete veya belirtilen demet ve klasör yoluna kopyalanabilir.
- Dosya biçimi: Açılan listeden uygulanan dosya biçimini seçin. Dosya biçimini yapılandırmak için Ayarlar seçin. Farklı dosya biçimlerinin ayarları için ayrıntılı bilgi için Desteklenen biçimdeki makalelere bakın.
Gelişmiş'in altında aşağıdaki alanları belirtebilirsiniz:
Kopyalama davranışı: Kaynak dosya tabanlı bir veri deposundaki dosyalar olduğunda kopyalama davranışını tanımlar. Açılan listeden bir davranış seçebilirsiniz.
- Düzleştirme hiyerarşisi: Kaynak klasördeki tüm dosyalar hedef klasörün ilk düzeyindedir. Hedef dosyalar otomatik olarak oluşturulan adlara sahiptir.
- Dosyaları birleştirme: Kaynak klasördeki tüm dosyaları tek bir dosyayla birleştirir. Dosya adı belirtilirse, birleştirilmiş dosya adı belirtilen addır. Aksi takdirde, otomatik olarak oluşturulan bir dosya adıdır.
- Hiyerarşiyi koru: Hedef klasördeki dosya hiyerarşisini korur. Kaynak dosyanın kaynak klasöre göreli yolu, hedef dosyanın hedef klasöre göreli yolu ile aynıdır.
En fazla eşzamanlı bağlantı: Bu özellik, etkinlik çalıştırması sırasında veri deposuna kurulan eş zamanlı bağlantıların üst sınırını gösterir. Yalnızca eşzamanlı bağlantıları sınırlamak istediğinizde bir değer belirtin.
Eşleme
Eşleme sekmesi yapılandırması için Eşleme sekmesinin altında Eşlemelerinizi yapılandırma bölümüne gidin. Dosya biçiminiz olarak İkili'yi seçerseniz eşleme desteklenmez.
Ayarlar
Ayarlar sekmesi yapılandırması için Ayarlar sekmesinin altında Diğer ayarlarınızı yapılandırma'ya gidin.
Tablo özeti
Aşağıdaki tablolar Amazon S3'teki kopyalama etkinliği hakkında daha fazla bilgi içerir.
Kaynak bilgileri
Hedef bilgileri
Veri Akışı Adı | Açıklama | Değer | Zorunlu | JSON betik özelliği |
---|---|---|---|---|
Veri deposu türü | Veri deposu türünüz. | Harici | Yes | / |
Bağlantı | Hedef veri deposuna bağlantınız. | <Amazon S3 bağlantınız> | Yes | bağlantı |
Bağlantı türü | Bağlantınız için bir tür seçin. | Amazon S3 | Yes | / |
Dosya yolu | Hedef dosyanın klasör/dosya yolu. | <klasör/dosya yolu> | Yes | / |
Kova | S3 demet adı. | <demet adınız> | Yes | bucketName |
Dizin | Belirtilen demetin altındaki klasörün yolu. | <klasör adınız> | Hayır | klasör yolu |
Dosya adı | Belirtilen demet ve klasör yolunun altındaki dosya adı. | <dosya adınız> | Hayır | fileName |
Kopyalama davranışı | Kaynak dosya tabanlı bir veri deposundaki dosyalar olduğunda kopyalama davranışını tanımlar. | • Düzleştirme hiyerarşisi • Dosyaları birleştirme • Hiyerarşiyi koru |
Hayır | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
En fazla eşzamanlı bağlantı | Etkinlik çalıştırması sırasında veri deposuna kurulan eş zamanlı bağlantıların üst sınırı. Yalnızca eşzamanlı bağlantıları sınırlamak istediğinizde bir değer belirtin. | <en fazla eşzamanlı bağlantı> | Hayır | maxConcurrent Bağlan ions |