%Tokenize([token set],[preserved set]);
このコマンドはオプションです。省略した場合は、デフォルトの [\s]
が使用されます。これはスペース、タブ、または改行を表す正規表現のデフォルトです。
フィールドをトークン化するために使う文字を定義し、保持する文字を設定します。
[token set]
は、フィールドを自動的にトークン化するために使われる一連の文字です。トークン化とは、区切り文字を使ってフィールドを区切ることを意味します。
例
%Tokenize([-\s],[-];
この例では、空白とダッシュを使ってトークン化を行い、ダッシュをトークンとして保持します。
注:
%Tokenize
は Java の RegEx 構文ルールに従います。バックスラッシュ文字 "\
" を使うと、ハイフンやその他のメタ文字を通常の文字として扱うように Open Parser に強制できます。例えば、ハイフン文字 (-
) は、リテラル文字のハイフンとして使用するか、文字の範囲指定に使用できます。%Tokenize
の値を [(-)]
に設定すると、Open Parser は、左カッコ "(
" の文字と右カッコ ")
" の文字に囲まれた範囲の文字を意味すると解釈します。予約語の全一覧については、コマンドのメタ文字を参照してください。 [preserved set]
は、token set に含まれるトークンのうち、トークンとして残されてトークン一覧に表示されるものの文字セットの正規表現定義です。例えば、token set が空白とハイフンで、preserved set がハイフンである場合、"before-after this" は、'before'、'-'、'after'、'this' という 4 つのトークンに分割されます。
このコマンドを使用するには、次の手順に従います。
- コマンドを挿入する場所にカーソルを位置付けます。
- [コマンド] リストの [%Tokenize] をダブルクリックします。
- [トークン セット] 矢印をクリックして RegEx 値を選択するか、[トークン セット] テキスト ボックスに値を入力します。
トークン セットの定義に使用できる、定義済み RegEx タグがいくつか用意されています。詳細については、「カルチャー固有のパーシング グラマーの定義」を参照してください。
- 必要に応じて、[保存する文字] チェック ボックスを選択します。
- [保存するトークン セット文字] 矢印をクリックして値を選択するか、テキスト ボックスに値を入力します。
- [OK] をクリックします。