Что такое перевод документов?

Перевод документов — это облачная функция машинного перевода службы Azure AI Translator . Вы можете переводить несколько и сложных документов на всех поддерживаемых языках и диалектах , сохраняя исходную структуру документов и формат данных. API перевода документов поддерживает два процесса перевода:

  • Асинхронный пакетный перевод поддерживает обработку нескольких документов и больших файлов. Для процесса пакетного перевода требуется учетная запись хранения BLOB-объектов Azure с контейнерами хранения для исходного и переведенного документа.

  • Синхронный один файл поддерживает обработку однофайловых переводов. Процесс перевода файлов не требует учетной записи хранения BLOB-объектов Azure. Окончательный ответ содержит переведенный документ и возвращается непосредственно вызывающому клиенту.

Асинхронный пакетный перевод

Используйте асинхронную обработку документов для перевода нескольких документов и больших файлов.

Функции ключа пакетной службы

Возможность Description
Перевод больших файлов Асинхронный перевод целых документов.
Перевод большого количества файлов Перевод нескольких файлов с использованием всех поддерживаемых языков и диалектов с сохранением структуры и формата данных документа.
Сохранение представления исходного файла Перевод файлов с сохранением исходной структуры и формата.
Применение пользовательской модели перевода Перевод документов с использованием стандартной и пользовательской моделей перевода.
Применение пользовательских глоссариев Перевод документов с использованием пользовательских глоссариев.
Автоматическое определение языка документа Разрешить службе перевода документов определять язык документа.
Перевод документов с содержимым на нескольких языках Используйте возможность автоматического обнаружения для перевода документов с содержимым с нескольких языков на целевой язык.

Параметры разработки пакетной службы

Вы можете добавить службу "Перевод документов" в свои приложения с помощью REST API или пакета SDK клиентской библиотеки:

  • REST API — это независимый от языка интерфейс, позволяющий создавать HTTP-запросы и заголовки авторизации для перевода документов;

  • пакеты SDK для клиентских библиотек — это классы, объекты, методы и код, специфичные для языка, которые можно быстро использовать, добавив ссылку в проект. Сейчас служба "Перевод документов" поддерживает языки программирования C#/.NET и Python.

Форматы поддерживаемых пакетной службы документов

Метод Получения поддерживаемых форматов документов возвращает список форматов документов, поддерживаемых службой перевода документов. Список содержит распространенные расширения имен файла и content-type при использовании API отправки.

Тип файла Расширение файла Description
Adobe PDF pdf Переносимый формат документов. В переводе документов используется технология оптического распознавания символов (OCR) для извлечения и перевода текста в отсканированном PDF-документе при сохранении исходного макета.
Значения с разделителями-запятыми csv Файл необработанных данных с разделением запятыми, используемый редакторами электронных таблиц.
HTML html, htm Язык разметки гипертекста.
Localization Interchange File Format (формат обмена локализуемыми данными) xlf Формат параллельных документов, экспортируемых системами памяти переводов. Используемые языки определены в файле.
Markdown markdown, mdownmkdnmdmkdmdwnmdtxtmdtextrmd Упрощенный язык разметки для создания форматированного текста.
MHTML mthml, mht Формат архива веб-страниц, используемый для объединения HTML-кода и сопровождающих его ресурсов.
Microsoft Excel xls, xlsx Файл электронной таблицы для анализа и документирования данных.
Microsoft Outlook msg Сообщение электронной почты, созданное или сохраненное в Microsoft Outlook.
Microsoft PowerPoint ppt, pptx Файл презентации, используемый для отображения содержимого в формате слайд-шоу.
Microsoft Word doc, docx Файл текстового документа.
Текст OpenDocument odt Файл текстового документа с открытым кодом.
Презентация OpenDocument odp Файл презентации с открытым кодом.
Электронная таблица OpenDocument ods Файл электронной таблицы с открытым кодом.
Формат RTF rtf Текстовый документ, содержащий форматирование.
Значения с разделением знаками табуляции (TAB) tsv/tab Файл необработанных данных с разделением знаками табуляции, используемый редакторами электронных таблиц.
Текст txt Неформатированный текстовый документ.

Устаревшие типы файлов пакетной службы

Типы исходных файлов сохраняются во время перевода документов со следующими исключениями:

Расширение исходного файла Расширение переведенного файла
.doc, .odt, .rtf, DOCX
.xls, .ods XLSX
.ppt, .odp PPTX

Поддерживаемые пакетным пакетом форматы глоссарий

Перевод документов поддерживает следующие типы файлов глоссария:

Тип файла Расширение файла Description
Значения с разделителями-запятыми csv Файл необработанных данных с разделением запятыми, используемый редакторами электронных таблиц.
Localization Interchange File Format (формат обмена локализуемыми данными) xlf , xliff Параллельный формат документа, экспорт систем памяти преобразования. Используемые языки определяются внутри файла.
Значения с разделением знаками табуляции (TAB) tsv, tab Файл необработанных данных с разделением знаками табуляции, используемый редакторами электронных таблиц.

Синхронный перевод

Используйте синхронную обработку перевода для отправки документа в составе текста HTTP-запроса и получения переведенного документа в ответе HTTP.

Функции синхронного перевода

Возможность Description
Перевод одностраничных файлов Синхронный запрос принимает только один документ в качестве входных данных.
Сохранение представления исходного файла Перевод файлов с сохранением исходной структуры и формата.
Применение пользовательской модели перевода Перевод документов с использованием стандартной и пользовательской моделей перевода.
Применение пользовательских глоссариев Перевод документов с использованием пользовательских глоссариев.
Перевод на один язык Перевод на один поддерживаемый язык и с одного поддерживаемого языка.
Автоматическое определение языка документа Разрешить службе перевода документов определять язык документа.
Применение пользовательских глоссариев Перевод документа с помощью пользовательского глоссария.

Синхронные поддерживаемые форматы документов

Тип файла Расширение файла Content type Description
Обычный текст .txt text/plain Неформатированный текстовый документ.
Разделенные значения табуляции .txv
.tab
text/tab-separated-values Формат текстового файла, использующий вкладки для разделения значений и новых линий для отдельных записей.
Разделенные запятыми значения .csv text/csv Формат текстового файла, который использует запятые в качестве разделителя между значениями.
Язык разметки HyperText .html
.htm
text/html HTML — это стандартный язык разметки, используемый для структуры веб-страниц и содержимого.
MHTML .mthml
.mht
message/rfc822
@application/x-mimearchive
@multipart/related
Формат файла архива веб-страницы.
Microsoft PowerPoint .pptx application/vnd.openxmlformats-officedocument.presentationml.presentation Формат файла на основе XML, используемый для презентаций слайд-шоу PowerPoint.
Microsoft Excel .xlsx application/vnd.openxmlformats-officedocument.spreadsheetml.sheet Формат файла на основе XML, используемый для электронных таблиц Excel.
Microsoft Word .docx application/vnd.openxmlformats-officedocument.wordprocessingml.document Формат файла на основе XML, используемый для документов Word.
Microsoft Outlook .msg application/vnd.ms-outlook Формат файла, используемый для сохраненных объектов почтового сообщения Outlook.
Обмен локализацией XML .xlf
.xliff
application/xliff+xml Стандартный формат xml-файла, широко используемый в процессе перевода и локализации программной обработки.

Синхронные поддерживаемые форматы глоссарий

Перевод документов поддерживает следующие типы файлов глоссария:

Тип файла Расширение файла Description
Значения, разделенные запятыми csv Файл необработанных данных с разделением запятыми, используемый редакторами электронных таблиц.
XmlLocalizationInterchange xlf , xliff Формат на основе XML, предназначенный для стандартизации передаче данных во время процесса локализации.
TabSeparatedValues tsv, tab Файл необработанных данных с разделением знаками табуляции, используемый редакторами электронных таблиц.

Ограничения запросов на перевод документов

Подробные сведения об ограничениях запросов службы Azure AI Translator см. в разделе "Ограничения запросов на перевод документов".

Размещение данных перевода документов

Расположение данных перевода документов зависит от региона Azure, в котором был создан ресурс Переводчика:

✔️ Функция: конечная точка службы перевода ✔️
документов: custom: <name-of-your-resource.cognitiveservices.azure.com/translator/text/batch/v1.1

Созданный ресурс регион Запрашивать центр обработки данных
Global Ближайший доступный центр обработки данных.
Северная и Южная Америки Восточная часть США 2 • Западная часть США 2
Азиатско-Тихоокеанский регион Восточная Япония • Юго-Восточная Азия
Европа (за исключением Швейцарии) Центральная Франция • Западная Европа
Швейцария Северная Швейцария • Западная Швейцария

Следующие шаги

В нашем кратком руководстве вы узнаете, как быстро приступить к работе с переводом документов. Для начала вам нужна активная учетная запись Azure. Если ее нет, можно создать бесплатную учетную запись.