BrainScript LU 시퀀스 판독기

참고: 신규 이민자인 경우 CNTK 텍스트 서식 읽기 프로그램을 사용하는 것이 좋습니다. 향후 LUSequenceReader는 더 이상 사용되지 않으며 결국 지원되지 않습니다.

LUSequenceReader는 LMSequenceReader와 유사합니다. 그러나 입력 및 출력 문자열이 다른 언어 이해 작업에 사용됩니다. LUSequenceReader를 설정하는 예제는 다음과 같습니다.

reader = [
    readerType = "LUSequenceReader"
    randomize = "none"
    wordContext = 0:1:2
    nbrUttsInEachRecurrentIter = 10
    unk = "<unk>"
    wordMap = "$DataDir$\inputmap.txt"
    file = "$DataDir$\atis.train.IOB"
    labelIn = [
        useWordMap = true
        beginSequence = "BOS"
        endSequence = "EOS"
        token = "$DataDir$\input.txt"
    ]
    labels = [
        beginSequence = "O"
        endSequence = "O"
        token = "$DataDir$\output.txt"
    ]
]

LUSequenceReader에는 다음과 같은 매개 변수가 있습니다.

  • wordContext: 컨텍스트 창을 지정합니다. 예를 들어 컨텍스트 wordContext=0:1:2 창 3을 지정합니다. 이 컨텍스트 창에서는 현재 시간, 다음 시간 및 다음 시간 이후의 시간에 입력을 읽습니다. 또 다른 예는 다음과 같습니다 wordContext=0:-1. 이 경우 LUSequencReader는 현재 입력과 즉시 마지막 입력으로 구성된 2의 컨텍스트 창을 읽습니다.

  • randomize: 둘 중 하나 None 또는 Auto입니다. 전체 모음의 문장 임의화를 수행하는지 여부를 지정합니다.

  • nbrUttsInEachRecurrentIter: 미니배치의 문장 수 제한을 지정합니다. 판독기는 지정된 제한까지 동일한 길이의 입력 문장을 각 미니배치에 정렬합니다. 되풀이 네트워크의 경우 트레이너는 문장의 시작 부분에서만 숨겨진 계층 활동을 다시 설정합니다. 문장 끝에 도달하지 않으면 숨겨진 계층의 활동이 다음 미니배치로 이월됩니다. 미니배치에서 여러 문장을 사용하면 학습 프로세스를 가속화할 수 있습니다.

  • unk: 보이지 않는 입력 기호를 나타내는 기호를 지정합니다. 일반적으로 이 기호는 ""입니다.

  • wordMap: 입력을 다른 입력에 매핑하는 파일을 지정합니다. 이는 사용자가 일부 입력을 알 수 없는 기호에 매핑하려는 경우에 유용합니다. 단어 매핑 파일의 예는 다음과 같습니다.

    buy buy

    trans <unk>

  • file: 파일에 입력 및 해당 레이블이 포함됩니다. 마지막 열은 레이블이고 다른 열에는 입력이 포함됩니다. 학습 파일의 예는 다음과 같습니다.

    BOS O

    flight O

    from O

    charlotte B-fromloc.city_name

    to O

    las B-toloc.city_name

    vegas I-toloc.city_name

    EOS O

위의 예제에서는 두 개의 하위 블록과 이름이 같은 labelInlabels것을 확인할 수 있습니다.

  • labelIn: 입력 레이블에 대한 섹션입니다. 다음 설정이 포함되어 있습니다.

    • useWordMaptrue 또는 false단어 맵을 사용하여 입력 단어를 다른 입력 단어에 매핑할지 여부를 지정합니다.
    • beginSequence – 문장 시작 기호
    • endSequence – 문장 끝 기호
    • token – 토큰 파일에는 입력 단어 목록이 포함되어 있습니다. 그들의 주문은 중요하지 않습니다.
  • labels: 출력 레이블에 대한 섹션입니다.

    • token – 토큰 파일에는 출력 레이블 목록이 포함되어 있습니다. 토큰이 고유한 경우 순서는 중요하지 않습니다.