Что такое перевод документов?
Перевод документов — это облачная функция машинного перевода службы Azure AI Translator . Вы можете переводить несколько и сложных документов на всех поддерживаемых языках и диалектах , сохраняя исходную структуру документов и формат данных. API перевода документов поддерживает два процесса перевода:
Асинхронный пакетный перевод поддерживает обработку нескольких документов и больших файлов. Для процесса пакетного перевода требуется учетная запись хранения BLOB-объектов Azure с контейнерами хранения для исходного и переведенного документа.
Синхронный один файл поддерживает обработку однофайловых переводов. Процесс перевода файлов не требует учетной записи хранения BLOB-объектов Azure. Окончательный ответ содержит переведенный документ и возвращается непосредственно вызывающому клиенту.
Асинхронный пакетный перевод
Используйте асинхронную обработку документов для перевода нескольких документов и больших файлов.
Функции ключа пакетной службы
Возможность | Description |
---|---|
Перевод больших файлов | Асинхронный перевод целых документов. |
Перевод большого количества файлов | Перевод нескольких файлов с использованием всех поддерживаемых языков и диалектов с сохранением структуры и формата данных документа. |
Сохранение представления исходного файла | Перевод файлов с сохранением исходной структуры и формата. |
Применение пользовательской модели перевода | Перевод документов с использованием стандартной и пользовательской моделей перевода. |
Применение пользовательских глоссариев | Перевод документов с использованием пользовательских глоссариев. |
Автоматическое определение языка документа | Разрешить службе перевода документов определять язык документа. |
Перевод документов с содержимым на нескольких языках | Используйте возможность автоматического обнаружения для перевода документов с содержимым с нескольких языков на целевой язык. |
Параметры разработки пакетной службы
Вы можете добавить службу "Перевод документов" в свои приложения с помощью REST API или пакета SDK клиентской библиотеки:
REST API — это независимый от языка интерфейс, позволяющий создавать HTTP-запросы и заголовки авторизации для перевода документов;
пакеты SDK для клиентских библиотек — это классы, объекты, методы и код, специфичные для языка, которые можно быстро использовать, добавив ссылку в проект. Сейчас служба "Перевод документов" поддерживает языки программирования C#/.NET и Python.
Форматы поддерживаемых пакетной службы документов
Метод Получения поддерживаемых форматов документов возвращает список форматов документов, поддерживаемых службой перевода документов. Список содержит распространенные расширения имен файла и content-type при использовании API отправки.
Тип файла | Расширение файла | Description |
---|---|---|
Adobe PDF | pdf |
Переносимый формат документов. В переводе документов используется технология оптического распознавания символов (OCR) для извлечения и перевода текста в отсканированном PDF-документе при сохранении исходного макета. |
Значения с разделителями-запятыми | csv |
Файл необработанных данных с разделением запятыми, используемый редакторами электронных таблиц. |
HTML | html , htm |
Язык разметки гипертекста. |
Localization Interchange File Format (формат обмена локализуемыми данными) | xlf | Формат параллельных документов, экспортируемых системами памяти переводов. Используемые языки определены в файле. |
Markdown | markdown , mdown mkdn md mkd mdwn mdtxt mdtext rmd |
Упрощенный язык разметки для создания форматированного текста. |
MHTML | mthml , mht |
Формат архива веб-страниц, используемый для объединения HTML-кода и сопровождающих его ресурсов. |
Microsoft Excel | xls , xlsx |
Файл электронной таблицы для анализа и документирования данных. |
Microsoft Outlook | msg |
Сообщение электронной почты, созданное или сохраненное в Microsoft Outlook. |
Microsoft PowerPoint | ppt , pptx |
Файл презентации, используемый для отображения содержимого в формате слайд-шоу. |
Microsoft Word | doc , docx |
Файл текстового документа. |
Текст OpenDocument | odt |
Файл текстового документа с открытым кодом. |
Презентация OpenDocument | odp |
Файл презентации с открытым кодом. |
Электронная таблица OpenDocument | ods |
Файл электронной таблицы с открытым кодом. |
Формат RTF | rtf |
Текстовый документ, содержащий форматирование. |
Значения с разделением знаками табуляции (TAB) | tsv /tab |
Файл необработанных данных с разделением знаками табуляции, используемый редакторами электронных таблиц. |
Текст | txt |
Неформатированный текстовый документ. |
Устаревшие типы файлов пакетной службы
Типы исходных файлов сохраняются во время перевода документов со следующими исключениями:
Расширение исходного файла | Расширение переведенного файла |
---|---|
.doc, .odt, .rtf, | DOCX |
.xls, .ods | XLSX |
.ppt, .odp | PPTX |
Поддерживаемые пакетным пакетом форматы глоссарий
Перевод документов поддерживает следующие типы файлов глоссария:
Тип файла | Расширение файла | Description |
---|---|---|
Значения с разделителями-запятыми | csv |
Файл необработанных данных с разделением запятыми, используемый редакторами электронных таблиц. |
Localization Interchange File Format (формат обмена локализуемыми данными) | xlf , xliff |
Параллельный формат документа, экспорт систем памяти преобразования. Используемые языки определяются внутри файла. |
Значения с разделением знаками табуляции (TAB) | tsv , tab |
Файл необработанных данных с разделением знаками табуляции, используемый редакторами электронных таблиц. |
Синхронный перевод
Используйте синхронную обработку перевода для отправки документа в составе текста HTTP-запроса и получения переведенного документа в ответе HTTP.
Функции синхронного перевода
Возможность | Description |
---|---|
Перевод одностраничных файлов | Синхронный запрос принимает только один документ в качестве входных данных. |
Сохранение представления исходного файла | Перевод файлов с сохранением исходной структуры и формата. |
Применение пользовательской модели перевода | Перевод документов с использованием стандартной и пользовательской моделей перевода. |
Применение пользовательских глоссариев | Перевод документов с использованием пользовательских глоссариев. |
Перевод на один язык | Перевод на один поддерживаемый язык и с одного поддерживаемого языка. |
Автоматическое определение языка документа | Разрешить службе перевода документов определять язык документа. |
Применение пользовательских глоссариев | Перевод документа с помощью пользовательского глоссария. |
Синхронные поддерживаемые форматы документов
Тип файла | Расширение файла | Content type | Description |
---|---|---|---|
Обычный текст | .txt |
text/plain |
Неформатированный текстовый документ. |
Разделенные значения табуляции | .txv .tab |
text/tab-separated-values |
Формат текстового файла, использующий вкладки для разделения значений и новых линий для отдельных записей. |
Разделенные запятыми значения | .csv |
text/csv |
Формат текстового файла, который использует запятые в качестве разделителя между значениями. |
Язык разметки HyperText | .html .htm |
text/html |
HTML — это стандартный язык разметки, используемый для структуры веб-страниц и содержимого. |
MHTML | .mthml .mht |
message/rfc822 @ application/x-mimearchive @ multipart/related |
Формат файла архива веб-страницы. |
Microsoft PowerPoint | .pptx |
application/vnd.openxmlformats-officedocument.presentationml.presentation |
Формат файла на основе XML, используемый для презентаций слайд-шоу PowerPoint. |
Microsoft Excel | .xlsx |
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet |
Формат файла на основе XML, используемый для электронных таблиц Excel. |
Microsoft Word | .docx |
application/vnd.openxmlformats-officedocument.wordprocessingml.document |
Формат файла на основе XML, используемый для документов Word. |
Microsoft Outlook | .msg |
application/vnd.ms-outlook |
Формат файла, используемый для сохраненных объектов почтового сообщения Outlook. |
Обмен локализацией XML | .xlf .xliff |
application/xliff+xml |
Стандартный формат xml-файла, широко используемый в процессе перевода и локализации программной обработки. |
Синхронные поддерживаемые форматы глоссарий
Перевод документов поддерживает следующие типы файлов глоссария:
Тип файла | Расширение файла | Description |
---|---|---|
Значения, разделенные запятыми | csv |
Файл необработанных данных с разделением запятыми, используемый редакторами электронных таблиц. |
XmlLocalizationInterchange | xlf , xliff |
Формат на основе XML, предназначенный для стандартизации передаче данных во время процесса локализации. |
TabSeparatedValues | tsv , tab |
Файл необработанных данных с разделением знаками табуляции, используемый редакторами электронных таблиц. |
Ограничения запросов на перевод документов
Подробные сведения об ограничениях запросов службы Azure AI Translator см. в разделе "Ограничения запросов на перевод документов".
Размещение данных перевода документов
Расположение данных перевода документов зависит от региона Azure, в котором был создан ресурс Переводчика:
✔️ Функция: конечная точка службы перевода ✔️
документов: custom: <name-of-your-resource.cognitiveservices.azure.com/translator/text/batch/v1.1
Созданный ресурс регион | Запрашивать центр обработки данных |
---|---|
Global | Ближайший доступный центр обработки данных. |
Северная и Южная Америки | Восточная часть США 2 • Западная часть США 2 |
Азиатско-Тихоокеанский регион | Восточная Япония • Юго-Восточная Азия |
Европа (за исключением Швейцарии) | Центральная Франция • Западная Европа |
Швейцария | Северная Швейцария • Западная Швейцария |
Следующие шаги
В нашем кратком руководстве вы узнаете, как быстро приступить к работе с переводом документов. Для начала вам нужна активная учетная запись Azure. Если ее нет, можно создать бесплатную учетную запись.