ドキュメントから日付と数字を抽出する

抽出するフィールドは単純なテキストが多い中、抽出する情報が日付や金額などの数値である場合があります。

このデータをターゲット システムにインポートするのは面倒な場合があり、重要なカスタム変換ロジックが必要になります。 ほとんどのインポート コネクタと API は、YYYY-MM-DD のような ISO 8601 形式の正規化された日付のみを受け入れます。 また、NNN.DD のように桁区切り記号がなく、ドット (.) を小数点として使用する数値のみも受け入れます。

日付形式の詳細については、ISO 8601 日付と時刻の形式 を参照してください。

ウィザードのフィールド作成ステップでこのタイプを宣言し、日付または数値の規則 (ロケールに相当) を選択する機能を追加しました。

日付規則

次の例は、日付フィールドを含む住宅ローン明細書を示しています。

'概要' にある '日付フィールド' のスクリーンショット。

次の例は、日付フィールドの形式を示しています。

'日付フィールド' 形式のスクリーンショット。

サポートされる日付形式

フィールドを定義するとき、年、月、日; 月、日、年; または 日、月、年 から選びます。

次の文字を日付の区切り文字として使用できます: ,-/.\。 空白は区切り文字として使用できません。 例:

  • 01,01,2020
  • 01-01-2020
  • 2020/01/01

日と月はそれぞれ1桁または 2 桁で記述でき、年は 2 桁または 4 桁で記述できます。

  • 1-1-2020
  • 1-01-20

日付文字列が8桁の場合、区切り文字はオプションです。

  • 01012020
  • 01 01 2020

月は、完全な名前または短い名前として記述することもできます。 名前を使用する場合、区切り文字はオプションです。 ただし、この形式は他の形式よりも正確に認識されない場合があります。

  • 01/Jan/2020
  • 01Jan2020
  • 01 Jan 2020

数値規則

次の例は、数値フィールドを含む住宅ローン明細書を示しています。

'概要' にある '数値フィールド' のスクリーンショット。

次の例は、数値フィールドの形式を示しています。

'数値フィールド' の形式のスクリーンショット。

注意

各フィールドについて、このモデルのすべてのコレクションの特定のフィールドに対して許可される規則は 1 つだけです。 たとえば、小数点としてコンマ (,) を使用する を選択してフィールドの金額を抽出すると、次のテキスト 1234,56 または 1 234,56 は 1234.56 に変換されます。 形式が 12,34,576.78 または 1,234.56 の金額は変換されません。

抽出中に、テキストは指定された規則に従って自動的に変換されます。 この変換された値は、YOURFIELDNAME value の結果を使用して取得できます。 変換できない場合、この値は空になります。 元のテキストは、YOURFIELDNAME text の結果を使用して取得できます。

サポートされる数字形式

フィールドを定義するときに、小数点としてドット (.) を使用する または 小数点としてコンマ (,) を使用する のいずれかを選択します。

小数点がドット (.) の場合、桁区切り記号は省略でき、コンマ (,) または空白を使用できます。 例:

  • 1234.56
  • 1,234.56
  • 1 234.56

小数点記号がカンマ (,) の場合、千区切りまたは空白は省略できます。 例:

  • 1234,56
  • 1 234.56

次のステップ

ドキュメント処理モデルをトレーニングして発行する

トレーニング: AI Builder を使用してカスタム ドキュメントを処理する (module)