Özel konuşma modeli eğitma

Bu makalede, Microsoft temel modelinden tanıma doğruluğunu geliştirmek için özel bir modeli eğitmeyi öğreneceksiniz. Özel konuşma modelinin konuşma tanıma doğruluğu ve kalitesi, yeni bir temel model yayınlandığında bile tutarlı olmaya devam eder.

Not

Özel konuşma modeli kullanımı ve uç nokta barındırma için ödemeniz gerekir. Temel model 1 Ekim 2023 ve sonrasında oluşturulduysa özel konuşma modeli eğitimi için de ücretlendirilirsiniz. Temel model Ekim 2023'e kadar oluşturulduysa eğitim için ücret alınmaz. Daha fazla bilgi için konuşmadan metne 3.2 geçiş kılavuzunun Azure AI Konuşma fiyatlandırması ve Uyarlama ücreti bölümüne bakın.

Modeli eğitmen genellikle yinelemeli bir işlemdir. İlk olarak yeni bir model için başlangıç noktası olan bir temel model seçersiniz. Metin ve ses içerebilen veri kümeleriyle modeli eğitip test edebilirsiniz. Tanıma kalitesi veya doğruluğu gereksinimlerinizi karşılamıyorsa, daha fazla veya değiştirilmiş eğitim verileriyle yeni bir model oluşturabilir ve sonra yeniden test edebilirsiniz.

Özel modeli eğitildikten sonra sınırlı bir süre kullanabilirsiniz. Geliştirilmiş doğruluk ve kaliteden yararlanmak için özel modelinizi düzenli aralıklarla en son temel modelden yeniden oluşturmanız ve uyarlamanız gerekir. Daha fazla bilgi için bkz . Model ve uç nokta yaşam döngüsü.

Önemli

Ses verileriyle özel bir model eğitecekseniz, ses verilerini eğitecek ayrılmış donanıma sahip bir Konuşma kaynak bölgesi seçin. Model eğitildikten sonra, gerektiğinde başka bir bölgedeki Konuşma kaynağına kopyalayabilirsiniz.

Özel konuşma eğitimi için ayrılmış donanıma sahip bölgelerde Konuşma tanıma hizmeti, sesli eğitim verilerinizin en fazla 100 saatini kullanır ve günde yaklaşık 10 saatlik verileri işleyebilir. Daha fazla bilgi için bölgeler tablosundaki dipnotlara bakın.

Model oluşturma

Eğitim veri kümelerini karşıya yükledikten sonra modelinizi eğitmeye başlamak için şu yönergeleri izleyin:

  1. Speech Studio'da oturum açın.

  2. Özel konuşma> Projenizin adı> Özel modelleri eğit'i seçin.

  3. Yeni model eğit'i seçin.

  4. Temel model seçin sayfasında bir temel model seçin ve ardından İleri'yi seçin. Emin değilseniz, listenin en üstünden en son modeli seçin. Temel modelin adı, YYYYMMDD biçiminde yayınlandığı tarihe karşılık gelir. Temel modelin özelleştirme özellikleri, Speech Studio'daki model adından sonra parantez içinde listelenir.

    Önemli

    Uyarlama tarihi için Süre sonu'na dikkat edin. Bu, eğitim için temel modeli kullanabileceğiniz son tarihtir. Daha fazla bilgi için bkz . Model ve uç nokta yaşam döngüsü.

  5. Veri seçin sayfasında, eğitim için kullanmak istediğiniz bir veya daha fazla veri kümesini seçin. Kullanılabilir veri kümesi yoksa kurulumu iptal edin ve veri kümelerini karşıya yüklemek için Konuşma veri kümeleri menüsüne gidin.

  6. Özel modeliniz için bir ad ve açıklama girin ve İleri'yi seçin.

  7. İsteğe bağlı olarak, sonraki adımda Test ekle kutusunu işaretleyin. Bu adımı atlarsanız, aynı testleri daha sonra çalıştırabilirsiniz. Daha fazla bilgi için bkz . Test tanıma kalitesi ve Test modeli nicel olarak.

  8. Özel modelinizin derlemesini başlatmak için Kaydet ve kapat'ı seçin.

  9. Özel modelleri eğit sayfasına dönün.

    Önemli

    Son kullanma tarihini not alın. Bu, konuşma tanıma için özel modelinizi kullanabileceğiniz son tarihtir. Daha fazla bilgi için bkz . Model ve uç nokta yaşam döngüsü.

Eğitim için veri kümelerine sahip bir model oluşturmak için komutunu kullanın spx csr model create . İstek parametrelerini aşağıdaki yönergelere göre oluşturun:

  • parametresini project var olan bir projenin kimliğine ayarlayın. Modeli Speech Studio'da da görüntüleyebilmeniz ve yönetebilmeniz için bu parametre önerilir. Kullanılabilir projeleri almak için komutunu çalıştırabilirsiniz spx csr project list .
  • Gerekli dataset parametreyi eğitim için kullanılmasını istediğiniz veri kümesinin kimliğine ayarlayın. Birden çok veri kümesi belirtmek için (çoğul) parametresini ayarlayın datasets ve kimlikleri noktalı virgülle ayırın.
  • Gerekli language parametreyi ayarlayın. Veri kümesi yerel ayarı projenin yerel ayarıyla eşleşmelidir. Yerel ayar daha sonra değiştirilemez. Konuşma CLI language parametresi, JSON isteğindeki ve yanıttaki özelliğine karşılık gelir locale .
  • Gerekli name parametreyi ayarlayın. Bu parametre, Speech Studio'da görüntülenen addır. Konuşma CLI name parametresi, JSON isteğindeki ve yanıttaki özelliğine karşılık gelir displayName .
  • İsteğe bağlı olarak özelliğini ayarlayabilirsiniz base . Örneğin: --base 5988d691-0893-472c-851e-8e36a0fe7aaf. belirtmezseniz base, yerel ayar için varsayılan temel model kullanılır. Konuşma CLI base parametresi, JSON isteğindeki ve yanıttaki özelliğine karşılık gelir baseModel .

Aşağıda, eğitim için veri kümelerine sahip bir model oluşturan örnek bir Konuşma CLI komutu verilmiştir:

spx csr model create --api-version v3.2 --project YourProjectId --name "My Model" --description "My Model Description" --dataset YourDatasetId --language "en-US"

Not

Bu örnekte, base ayarlanmadı, bu nedenle yerel ayar için varsayılan temel model kullanılır. Yanıtta temel model URI'si döndürülür.

Aşağıdaki biçimde bir yanıt gövdesi almanız gerekir:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd",
  "baseModel": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/5988d691-0893-472c-851e-8e36a0fe7aaf"
  },
  "datasets": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23"
    }
  ],
  "links": {
    "manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd/manifest",
    "copy": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd:copy",
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "deprecationDates": {
      "transcriptionDateTime": "2026-07-15T00:00:00Z"
    },
    "customModelWeightPercent": 30,
    "features": {
      "supportsTranscriptions": true,
      "supportsEndpoints": true,
      "supportsTranscriptionsOnSpeechContainers": false,
      "supportedOutputFormats": [
        "Display",
        "Lexical"
      ]
    }
  },
  "lastActionDateTime": "2024-07-14T21:38:40Z",
  "status": "Running",
  "createdDateTime": "2024-07-14T21:38:40Z",
  "locale": "en-US",
  "displayName": "My Model",
  "description": "My Model Description"
}

Önemli

Özelliğindeki tarihi adaptationDateTime not alın. Bu, eğitim için temel modeli kullanabileceğiniz son tarihtir. Daha fazla bilgi için bkz . Model ve uç nokta yaşam döngüsü.

Özelliğindeki tarihi transcriptionDateTime not alın. Bu, konuşma tanıma için özel modelinizi kullanabileceğiniz son tarihtir. Daha fazla bilgi için bkz . Model ve uç nokta yaşam döngüsü.

Yanıt gövdesindeki en üst düzey self özellik, modelin URI'sine sahiptir. Modelin projesi, bildirimi ve kullanımdan kaldırma tarihleri hakkındaki ayrıntıları almak için bu URI'yi kullanın. Modeli güncelleştirmek veya silmek için de bu URI'yi kullanırsınız.

Modellerle ilgili Konuşma CLI'sı yardımı için aşağıdaki komutu çalıştırın:

spx help csr model

Eğitim için veri kümeleriyle model oluşturmak için Konuşmayı metne dönüştürme REST API'sinin Models_Create işlemini kullanın. İstek gövdesini aşağıdaki yönergelere göre oluşturun:

  • project özelliğini mevcut bir projenin URI'sine ayarlayın. Modeli Speech Studio'da da görüntüleyebilmeniz ve yönetebilmeniz için bu özellik önerilir. Kullanılabilir projeleri almak için Projects_List isteğinde bulunabilirsiniz.
  • Gerekli datasets özelliği, eğitim için kullanılmasını istediğiniz veri kümelerinin URI'sine ayarlayın.
  • Gerekli locale özelliği ayarlayın. Model yerel ayarı, projenin ve temel modelin yerel ayarıyla eşleşmelidir. Yerel ayar daha sonra değiştirilemez.
  • Gerekli displayName özelliği ayarlayın. Bu özellik, Speech Studio'da görüntülenen addır.
  • İsteğe bağlı olarak özelliğini ayarlayabilirsiniz baseModel . Örneğin: "baseModel": {"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/5988d691-0893-472c-851e-8e36a0fe7aaf"}. belirtmezseniz baseModel, yerel ayar için varsayılan temel model kullanılır.

Aşağıdaki örnekte gösterildiği gibi URI'yi kullanarak bir HTTP POST isteği oluşturun. değerini Konuşma kaynak anahtarınız ile değiştirin YourSubscriptionKey , değerini Konuşma kaynağı bölgenizle değiştirin YourServiceRegion ve istek gövdesi özelliklerini daha önce açıklandığı gibi ayarlayın.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "displayName": "My Model",
  "description": "My Model Description",
  "baseModel": null,
  "datasets": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23"
    }
  ],
  "locale": "en-US"
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/models"

Not

Bu örnekte, baseModel ayarlanmadı, bu nedenle yerel ayar için varsayılan temel model kullanılır. Yanıtta temel model URI'si döndürülür.

Aşağıdaki biçimde bir yanıt gövdesi almanız gerekir:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd",
  "baseModel": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/5988d691-0893-472c-851e-8e36a0fe7aaf"
  },
  "datasets": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23"
    }
  ],
  "links": {
    "manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd/manifest",
    "copy": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd:copy",
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "deprecationDates": {
      "transcriptionDateTime": "2026-07-15T00:00:00Z"
    },
    "customModelWeightPercent": 30,
    "features": {
      "supportsTranscriptions": true,
      "supportsEndpoints": true,
      "supportsTranscriptionsOnSpeechContainers": false,
      "supportedOutputFormats": [
        "Display",
        "Lexical"
      ]
    }
  },
  "lastActionDateTime": "2024-07-14T21:38:40Z",
  "status": "Running",
  "createdDateTime": "2024-07-14T21:38:40Z",
  "locale": "en-US",
  "displayName": "My Model",
  "description": "My Model Description"
}

Önemli

Özelliğindeki tarihi adaptationDateTime not alın. Bu, eğitim için temel modeli kullanabileceğiniz son tarihtir. Daha fazla bilgi için bkz . Model ve uç nokta yaşam döngüsü.

Özelliğindeki tarihi transcriptionDateTime not alın. Bu, konuşma tanıma için özel modelinizi kullanabileceğiniz son tarihtir. Daha fazla bilgi için bkz . Model ve uç nokta yaşam döngüsü.

Yanıt gövdesindeki en üst düzey self özellik, modelin URI'sine sahiptir. Modelin projesi, bildirimi ve kullanımdan kaldırma tarihleri hakkındaki ayrıntıları almak için bu URI'yi kullanın. Modeli güncelleştirmek veya silmek için de bu URI'yi kullanırsınız.

Modeli kopyalama

Modeli aynı yerel ayarı kullanan başka bir projeye kopyalayabilirsiniz. Örneğin, bir model eğitim için ayrılmış donanıma sahip bir bölgedeki ses verileriyle eğitildikten sonra, gerektiğinde başka bir bölgedeki konuşma kaynağına kopyalayabilirsiniz.

Modeli başka bir bölgedeki bir projeye kopyalamak için şu yönergeleri izleyin:

  1. Speech Studio'da oturum açın.
  2. Özel konuşma> Projenizin adı> Özel modelleri eğit'i seçin.
  3. Kopyala'yı seçin.
  4. Konuşma modelini kopyala sayfasında, modeli kopyalamak istediğiniz hedef bölgeyi seçin. Speech Studio'da uygulanan tümcecik listesinin ekran görüntüsü.
  5. Hedef bölgede bir Konuşma kaynağı seçin veya yeni bir Konuşma kaynağı oluşturun.
  6. Modeli kopyalamak istediğiniz projeyi seçin veya yeni bir proje oluşturun.
  7. Kopyala'yı seçin.

Model başarıyla kopyalandıktan sonra size bildirilir ve bunu hedef projede görüntüleyebilirsiniz.

Modeli doğrudan başka bir bölgedeki bir projeye kopyalamak Konuşma CLI'sı ile desteklenmez. Speech Studio veya Konuşmayı metne dönüştürme REST API'sini kullanarak modeli başka bir bölgedeki bir projeye kopyalayabilirsiniz.

Modeli başka bir Konuşma kaynağına kopyalamak için Konuşmayı metne dönüştürme REST API'sinin Models_Copy işlemini kullanın. İstek gövdesini aşağıdaki yönergelere göre oluşturun:

  • Gerekli targetSubscriptionKey özelliği hedef Konuşma kaynağının anahtarına ayarlayın.

Aşağıdaki örnekte gösterildiği gibi URI'yi kullanarak bir HTTP POST isteği oluşturun. Kopyalamak istediğiniz modelin bölgesini ve URI'sini kullanın. değerini YourModelId model kimliğiyle değiştirin, yerine YourSubscriptionKey Konuşma kaynak anahtarınızı yazın, değerini Konuşma kaynağı bölgenizle değiştirin YourServiceRegion ve istek gövdesi özelliklerini daha önce açıklandığı gibi ayarlayın.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "targetSubscriptionKey": "ModelDestinationSpeechResourceKey"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/models/YourModelId:copy"

Not

targetSubscriptionKey Yalnızca istek gövdesindeki özelliğin hedef Konuşma kaynağı hakkında bilgileri vardır.

Aşağıdaki biçimde bir yanıt gövdesi almanız gerekir:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae",
  "baseModel": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/eb5450a7-3ca2-461a-b2d7-ddbb3ad96540"
  },
  "links": {
    "manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae/manifest",
    "copy": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae:copy"
  },
  "properties": {
    "deprecationDates": {
      "adaptationDateTime": "2023-01-15T00:00:00Z",
      "transcriptionDateTime": "2024-07-15T00:00:00Z"
    }
  },
  "lastActionDateTime": "2022-05-22T23:15:27Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-22T23:15:27Z",
  "locale": "en-US",
  "displayName": "My Model",
  "description": "My Model Description",
  "customProperties": {
    "PortalAPIVersion": "3",
    "Purpose": "",
    "VadKind": "None",
    "ModelClass": "None",
    "UsesHalide": "False",
    "IsDynamicGrammarSupported": "False"
  }
}

Modeli bağlama

Modeller, başka bir projeye bağlanmadan Konuşma CLI'sı veya REST API'sini kullanarak bir projeden kopyalanmış olabilir. Modeli bağlamak, modeli projeye bir başvuruyla güncelleştirmekle ilgili bir konudur.

Speech Studio'da istenirse Bağlan düğmesini seçerek bunları bağlayabilirsiniz.

Geçerli projeye bağlanabilen modelleri gösteren bağlanma eğitim sayfasının ekran görüntüsü.

Bir modeli projeye bağlamak için komutunu kullanın spx csr model update . İstek parametrelerini aşağıdaki yönergelere göre oluşturun:

  • parametresini project var olan bir projenin URI'sine ayarlayın. Modeli Speech Studio'da da görüntüleyebilmeniz ve yönetebilmeniz için bu parametre önerilir. Kullanılabilir projeleri almak için komutunu çalıştırabilirsiniz spx csr project list .
  • Gerekli modelId parametreyi projeye bağlamak istediğiniz modelin kimliğine ayarlayın.

Bir modeli projeye bağlayan örnek bir Konuşma CLI komutu aşağıda verilmiştir:

spx csr model update --api-version v3.2 --model YourModelId --project YourProjectId

Aşağıdaki biçimde bir yanıt gövdesi almanız gerekir:

{
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
}

Modellerle ilgili Konuşma CLI'sı yardımı için aşağıdaki komutu çalıştırın:

spx help csr model

Modelin kopyalandığı Konuşma kaynağının projesine yeni bir model bağlamak için Konuşmayı metne dönüştürme REST API'sinin Models_Update işlemini kullanın. İstek gövdesini aşağıdaki yönergelere göre oluşturun:

  • Gerekli project özelliği mevcut bir projenin URI'sine ayarlayın. Modeli Speech Studio'da da görüntüleyebilmeniz ve yönetebilmeniz için bu özellik önerilir. Kullanılabilir projeleri almak için Projects_List isteğinde bulunabilirsiniz.

Aşağıdaki örnekte gösterildiği gibi URI'yi kullanarak bir HTTP PATCH isteği oluşturun. Yeni modelin URI'sini kullanın. Yeni model kimliğini Models_Copy yanıt gövdesinin özelliğinden self alabilirsiniz. değerini Konuşma kaynak anahtarınız ile değiştirin YourSubscriptionKey , değerini Konuşma kaynağı bölgenizle değiştirin YourServiceRegion ve istek gövdesi özelliklerini daha önce açıklandığı gibi ayarlayın.

curl -v -X PATCH -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/models"

Aşağıdaki biçimde bir yanıt gövdesi almanız gerekir:

{
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
}

Sonraki adımlar