=head1 名前 B::Concise - Perl構文木を辿ってopの簡潔な情報を表示 =head1 概要 perl -MO=Concise[,OPTIONS] foo.pl use B::Concise qw(set_style add_callback); =head1 説明 このコンパイラバックエンドはPerlプログラムの構文木の内部OPを表示します. 表示形式はperlの内部構造や他のコンパイラバックエンドのデバッグに便利な スペースを効果的に使ったいくつかのテキスト形式があります. ここでは, OPツリーに現れた順, 実行される順, ツリー構造に近似させた テキスト等を表示できます. また, 表示される情報はカスタマイズ可能です. この機能は Perl の B<-Dx> デバッグフラグや B モジュールと よく似ています. しかしこれはよりより洗練されていて, また, 柔軟です. =head1 例 ここに2つの出力(レンダリングとも呼ばれる)例を示します. 1つは -exec を使った物で, もう1つは -basic (デフォルト)を使った物です. 処理対象のコードは同じ物です. % perl -MO=Concise,-exec -e '$a = $b + 42' 1 <0> enter 2 <;> nextstate(main 1 -e:1) v 3 <#> gvsv[*b] s 4 <$> const[IV 42] s * 5 <2> add[t3] sK/2 6 <#> gvsv[*a] s 7 <2> sassign vKS/2 8 <@> leave[1 ref] vKP/REFC 各行が1つのopcodeに対応します. '*' がマークされているopcodeは 以下の例でも少しでてきます. 最初のカラムはopの連番です. デフォルトでは36進数です(訳注:0..9, a..z, 10..19, 1a..1z ていうかんじ). このレンダリングは-exec(つまり実行)順のものです. 山形の括弧に囲まれた記号はopの種類を示しています. <2>であればBINOP, <@>であればLISTOP, <#>であればPADOP, これはスレッドperlで使われます (Lを参照). opcode名は, B<'add[t1]'>の様に操作に関連する情報が括弧や大括弧で 追加されています. その後ろにはop-flags(B<'sK/2'>等)が続きます. この詳細は Lを参照してください. % perl -MO=Concise -e '$a = $b + 42' 8 <@> leave[1 ref] vKP/REFC ->(end) 1 <0> enter ->2 2 <;> nextstate(main 1 -e:1) v ->3 7 <2> sassign vKS/2 ->8 * 5 <2> add[t1] sK/2 ->6 - <1> ex-rv2sv sK/1 ->4 3 <$> gvsv(*b) s ->4 4 <$> const(IV 42) s ->5 - <1> ex-rv2sv sKRM*/1 ->7 6 <$> gvsv(*a) s ->7 デフォルトのレンダリングはトップダウンです. つまり実行順ではありません. この形式はパース及び式の評価に使われたスタックの道筋を反映しています. add はツリー上でその下にある2つの項に対して演算されます. Nullop は C として perl の最適化によって I が 省かれた場所に現れます. これらは連番に '-' が表示されます. なぜならこれらは評価されないからです(1つ前の例(訳注:-execの出力例)では 表示されていません). ここ(今回の例)ではパースの結果を反映しているので 表示されています. 矢印が指している数字は次のopの連番です. これは -exec モードでは 明らかなことなので表示されません. このレンダリングはスレッドでないperlで行ったため, 前の例であった PADOP は ここでは SVOP になっています. またいくつかの大括弧(全てではないですが)は 括弧に置き換えられています. これはスレッドperlとスレッドでないperl間で 見た目の区別を提供するための巧妙な機能です. =head1 オプション 引数のうちハイフンで始まる物以外は OP を出力する関数の名前として 取ります. 関数を指定しなかった場合はプログラムのメイン(全ての関数の外側で use や require されたファイルも含まない)がレンダリングされます. C, 若しくは C, C, C を渡すと対応する特殊ブロックが 出力されます. オプションはどの様にレンダリング(つまり出力)されるのかに作用します. ここでは見た目毎に説明していきます. 最初にある方が優先されます. どのように関連するかに応じてグループ分けされています. それぞれの グループ内では指定できるのは1つだけです(記述がある物は除いて). =head2 Opcode の順序に関するオプション これらのオプションは opcode の '縦方向の表示' を制御します. 表示される '順番' はこのドキュメント以外で 'モード' と 呼ばれることもあります. =over 4 =item B<-basic> Print OPs in the order they appear in the OP tree (a preorder traversal, starting at the root). The indentation of each OP shows its level in the tree, and the '->' at the end of the line indicates the next opcode in execution order. This mode is the default, so the flag is included simply for completeness. =item B<-exec> Print OPs in the order they would normally execute (for the majority of constructs this is a postorder traversal of the tree, ending at the root). In most cases the OP that usually follows a given OP will appear directly below it; alternate paths are shown by indentation. In cases like loops when control jumps out of a linear path, a 'goto' line is generated. =item B<-tree> Print OPs in a text approximation of a tree, with the root of the tree at the left and 'left-to-right' order of children transformed into 'top-to-bottom'. Because this mode grows both to the right and down, it isn't suitable for large programs (unless you have a very wide terminal). =back =head2 ラインスタイルに関するオプション これらのオプションは各opcodeのレンダリングに使用するラインスタイル( 若しくは単にスタイルとも呼ばれる)を選択します. そして各行に実際どんな情報が 出力されるかを決定します. =over 4 =item B<-concise> ユーザの好きな書式セットを使います. もちろんこれがデフォルトです. =item B<-terse> B の出力をエミュレートする書式を使います. basicモードでは実際の Bと見分けがつかないほどです. exec モードでもとてもよく似ています が, より論理的な順序を持ち, 少ない波括弧で構成されます. B は tree モードを持ちません. このためツリーモードはBの曖昧な連想に すぎません. =item B<-linenoise> 各OPの名前に1文字が2文字の省略で表現される書式を使います. ほぼお遊びです. =item B<-debug> B を連想させる書式を使います. 全然明瞭(concise)ではありません. =item B<-env> 環境変数 C, C, C の値を書式として使います. =back =head2 ツリー用の書式オプション =over 4 =item B<-compact> ノードをつなぐ線に最小量のスペース(多くの場合1文字)を割り当てる ツリー書式を使います. これは貴重な端末の表示幅からスペースを絞り 出します. =item B<-loose> 区切られたOPノードに幾分長いエッジを使うツリー書式を使います. この書式は特にASCIIにおいてはcompactより見やすいでしょう. そして これがデフォルトです. =item B<-vt> VT100行描画集合で描くツリーを使います. もし端末がサポートしているのなら これがよりよいでしょう. =item B<-ascii> C<+> や C<|> 等の標準ASCII文字でツリーを描画します. これはVT100ほど きれいではありませんが, ほとんどの端末(そしてless(1)の縦スクロール モード等)でも機能します. また, テキストのドキュメントやemailにも 向いています. これはデフォルトです. =back これらは対になるもの, つまり compactとloose, vtとasciiで 排他的です. =head2 連番を制御するオプション =over 4 =item B<-base>I Print OP sequence numbers in base I. If I is greater than 10, the digit for 11 will be 'a', and so on. If I is greater than 36, the digit for 37 will be 'A', and so on until 62. Values greater than 62 are not currently supported. The default is 36. =item B<-bigendian> Print sequence numbers with the most significant digit first. This is the usual convention for Arabic numerals, and the default. =item B<-littleendian> Print seqence numbers with the least significant digit first. This is obviously mutually exclusive with bigendian. =back =head2 その他のオプション これらは対になるもので排他的です. =over 4 =item B<-main> 関数が指定されている場合でもメインプログラムも出力に含めます. このレンダリングは通常は関数名若しくはリファレンスが与えられると抑制され ます. =item B<-nomain> これは '-main' で設定を変更した後にデフォルトの振る舞いを復元します (通常は必要ありません). もし関数の名前/リファレンスが与えられなかった 場合にはこのフラグによらずメインプログラムはレンダリングされます. =item B<-nobanner> レンダリングは通常関数名や関数リファレンスを文字列化したものを 識別用にバナー行として出力します. これはバナーの出力を抑制します. TBC: Remove the stringified coderef; while it provides a 'cookie' for each function rendered, the cookies used should be 1,2,3.. not a random hex-address. It also complicates string comparison of two different trees. =item B<-banner> バナーのデフォルトの振る舞いを復元します. =item B<-banneris> => subref TBC: a hookpoint (and an option to set it) for a user-supplied function to produce a banner appropriate for users needs. It's not ideal, because the rendering-state variables, which are a natural candidate for use in concise.t, are unavailable to the user. =back =head2 オプションの張り付き具合 Concise を複数回プログラムから呼び出すのなら, オプションが 'sticky' な ことを知っておくべきでしょう. つまり最初の呼び出しで設定したオプションは 2度目の呼び出しでは指定していなくても記憶されていると言うことです. =head1 省略表記 conciseのスタイルは最小のデータで最大の情報を伝達するための記号を 使います. まだ慣れていないのであればツリー構造の中で枝ではなく 花を見るとよいでしょう. =head2 OP クラスの省略表記 これらの記号は op名の前に使われて, Perl コードの op に対応する B:: 名前空間を示します. 0 OP (aka BASEOP) An OP with no children 1 UNOP An OP with one child 2 BINOP An OP with two children | LOGOP A control branch OP @ LISTOP An OP that could have lots of children / PMOP An OP with a regular expression $ SVOP An OP with an SV " PVOP An OP with a string { LOOP An OP that holds pointers for a loop ; COP An OP that marks the start of a statement # PADOP An OP with a GV on the pad 0 OP (aka BASEOP) 子を持たない OP 1 UNOP 1つだけ子を持つ OP 2 BINOP 2つの子を持つ OP | LOGOP 制御分岐 OP @ LISTOP 複数の子を持つ OP / PMOP 正規表現 OP $ SVOP SV の OP " PVOP 文字列の OP { LOOP ループ地点を保持する OP ; COP 文の開始を記録する OP # PADOP パディングで GV を持つ OP =head2 OP フラグの省略表記 OP フラグにはパブリックなものとプライベートなものとがあります. パブリックなフラグは一貫した方法で各opcodeの振る舞いを変化させ, 0文字若しくは1文字以上で表現されます. v OPf_WANT_VOID Want nothing (void context) s OPf_WANT_SCALAR Want single value (scalar context) l OPf_WANT_LIST Want list of any length (list context) Want is unknown K OPf_KIDS There is a firstborn child. P OPf_PARENS This operator was parenthesized. (Or block needs explicit scope entry.) R OPf_REF Certified reference. (Return container, not containee). M OPf_MOD Will modify (lvalue). S OPf_STACKED Some arg is arriving on the stack. * OPf_SPECIAL Do something weird for this op (see op.h) v OPf_WANT_VOID 何も必要なし (voidコンテキスト) s OPf_WANT_SCALAR 1つの値を要求 (スカラーコンテキスト) l OPf_WANT_LIST 任意長のリストを要求 (リストコンテキスト) 要求は不明 K OPf_KIDS 最初の子供 P OPf_PARENS この演算子は括弧の中 (若しくはブロックが 明示的にスコープへの突入が必要.) R OPf_REF 保証されたリファレンス. (格納されているものではなくコンテナを返す.) M OPf_MOD 変更可能(lvalue). S OPf_STACKED いくつかの引数はスタック上にある. * OPf_SPECIAL なにか変わったことをするop (op.hを参照) プライベートフラグはあるopcode用の集合で, '/' の後に表示されます. 8 <@> leave[1 ref] vKP/REFC ->(end) 7 <2> sassign vKS/2 ->8 これらはopcodeの仕様であり, パブリックなものより稀に発生します. そのため1文字ではなく短いニーモニックで表現されます. 驚愕の詳細は L を見るか, 以下の2行を試してみてください: $> perl -MB::Concise -de 1 DB<1> |x \%B::Concise::priv =head1 書式仕様 それぞれのラインスタイル('concise', 'terse', 'linenoise' 等)とも, OPのレンダリング方法に3つの書式を持っています. 1つは 'default' で, これは basic と exec モードでのすべてのopcodeの 出力に使われます. 2つめは goto 書式で, exec モードで分岐の出力に 使われます. これらは実際のopcodeではなくて, 波括弧が閉じている様に 見える様に入れられるものです. そしてtree書式は木構造のためのです. When a line is rendered, the correct format-spec is copied and scanned for the following items; data is substituted in, and other manipulations like basic indenting are done, for each opcode rendered. There are 3 kinds of items that may be populated; special patterns, #vars, and literal text, which is copied verbatim. (Yes, it's a set of s///g steps.) =head2 Special Patterns These items are the primitives used to perform indenting, and to select text from amongst alternatives. =over 4 =item B<(x(>IB<;>IB<)x)> Generates I in exec mode, or I in basic mode. =item B<(*(>IB<)*)> Generates one copy of I for each indentation level. =item B<(*(>IB<;>IB<)*)> Generates one fewer copies of I than the indentation level, followed by one copy of I if the indentation level is more than 0. =item B<(?(>IB<#>IIB<)?)> If the value of I is true (not empty or zero), generates the value of I surrounded by I and I, otherwise nothing. =item B<~> Any number of tildes and surrounding whitespace will be collapsed to a single space. =back =head2 # Variables これらの #var はレンダリングの一部として必要になるopcodeのプロパティを 表現します. '#' はプライベートなsigilを意図しています. #var の値は "read $this" の様にスタイル行に書き込まれます. (訳注:sigil=印. $とか@とかを指すのにも使われる.) これらには3つの形式があります: =over 4 =item B<#>I opcodeの為に'var' という名前のプロパティが存在すると考えれます. そしてこれはレンダリングに書き込まれます. =item B<#>II Iこの空間に左詰してI の値を生成します. これは 'foo' と 'foo2' というプロパティをもっていたとしても, 'foo2' をレンダリング することは出来ないことを意味します. 'foo2a' であれば可能です. この振る舞いを当てにはしないでしょうが;-) =item B<#>I この #var の1文字目が大文字になっている形式は名前-値形式を 生成します. '#Var' は 'Var => #var' を生成し, これはこれまでに説明した ように扱われます. (実装メモ: #Var は条件付き埋め込みには使えません. => #var 変換は #Var の値のチェックの後に行われるからです. ) =back The following variables are 'defined' by B::Concise; when they are used in a style, their respective values are plugged into the rendering of each opcode. Only some of these are used by the standard styles, the others are provided for you to delve into optree mechanics, should you wish to add a new style (see L below) that uses them. You can also add new ones using L. =over 4 =item B<#addr> The address of the OP, in hexadecimal. =item B<#arg> The OP-specific information of the OP (such as the SV for an SVOP, the non-local exit pointers for a LOOP, etc.) enclosed in parentheses. =item B<#class> The B-determined class of the OP, in all caps. =item B<#classsym> A single symbol abbreviating the class of the OP. =item B<#coplabel> The label of the statement or block the OP is the start of, if any. =item B<#exname> The name of the OP, or 'ex-foo' if the OP is a null that used to be a foo. =item B<#extarg> The target of the OP, or nothing for a nulled OP. =item B<#firstaddr> The address of the OP's first child, in hexadecimal. =item B<#flags> The OP's flags, abbreviated as a series of symbols. =item B<#flagval> The numeric value of the OP's flags. =item B<#hyphseq> The sequence number of the OP, or a hyphen if it doesn't have one. =item B<#label> 'NEXT', 'LAST', or 'REDO' if the OP is a target of one of those in exec mode, or empty otherwise. =item B<#lastaddr> The address of the OP's last child, in hexadecimal. =item B<#name> The OP's name. =item B<#NAME> The OP's name, in all caps. =item B<#next> The sequence number of the OP's next OP. =item B<#nextaddr> The address of the OP's next OP, in hexadecimal. =item B<#noise> A one- or two-character abbreviation for the OP's name. =item B<#private> The OP's private flags, rendered with abbreviated names if possible. =item B<#privval> The numeric value of the OP's private flags. =item B<#seq> The sequence number of the OP. Note that this is a sequence number generated by B::Concise. =item B<#seqnum> 5.8.x and earlier only. 5.9 and later do not provide this. The real sequence number of the OP, as a regular number and not adjusted to be relative to the start of the real program. (This will generally be a fairly large number because all of B is compiled before your program is). =item B<#opt> Whether or not the op has been optimised by the peephole optimiser. Only available in 5.9 and later. =item B<#static> Whether or not the op is statically defined. This flag is used by the B::C compiler backend and indicates that the op should not be freed. Only available in 5.9 and later. =item B<#sibaddr> The address of the OP's next youngest sibling, in hexadecimal. =item B<#svaddr> The address of the OP's SV, if it has an SV, in hexadecimal. =item B<#svclass> The class of the OP's SV, if it has one, in all caps (e.g., 'IV'). =item B<#svval> The value of the OP's SV, if it has one, in a short human-readable format. =item B<#targ> The numeric value of the OP's targ. =item B<#targarg> The name of the variable the OP's targ refers to, if any, otherwise the letter t followed by the OP's targ in decimal. =item B<#targarglife> Same as B<#targarg>, but followed by the COP sequence numbers that delimit the variable's lifetime (or 'end' for a variable in an open scope) for a variable. =item B<#typenum> The numeric value of the OP's type, in decimal. =back =head1 B::Concise を O フレームワーク外から使う 一般的な(そして本来の)B::Conciseの使用法はEXAMPLEで行っているように コマンドライン上での簡単なコードのレンダリングです. ですがB をコード上から呼び出し, compile() を直接, そして繰り返し呼び出すことが できます. これを行うためには O.pm のコンパイル時のみの操作を無効化する 必要があります. そしてデバッガを使ってB::Concise::compile自身を ステップ実行する必要があるかもしれません. (訳注:次の段落とうまく繋がらないから訳せてないかんじ) 一度これを行えば, Conciseの出力に新しいレンダリングスタイルを加えたり, 新しい変数に張り付くコールバックルーティンを加えることで(追加した)スタイル から参照することも出来ます. =head2 例: Concise のレンダリングの変更 use B::Concise qw(set_style add_callback); add_style($yourStyleName => $defaultfmt, $gotofmt, $treefmt); add_callback ( sub { my ($h, $op, $format, $level, $stylename) = @_; $h->{variable} = some_func($op); }); $walker = B::Concise::compile(@options,@subnames,@subrefs); $walker->(); =head2 set_style() B は3つの引数を受け取ります. そして行の形式を形成する 3つの書式(basic-exec, goto, tree)を更新します. ここには1つ重要ではない欠点があります. 新しい名前でスタイルを登録 することはできません. これは複数回のレンダリングやスタイルの切り替えを 行う時に問題になります. このため add_style() や set_style_standard() を代わりに使う方が好ましいでしょう. =head2 set_style_standard($name) 標準ラインスタイル: C, C, C, C, C のうち1つをアクティブにします(リストアします). これら以外にも add_style() で定義したスタイル名も可能です. =head2 add_style() この関数は新しいスタイル名と3つのスタイル引数を上にあるように受け取って, 作成, 登録, そして選択します. スタイルの再追加はエラーになります. スタイルの切り替えには set_style_standard() を使ってください. =head2 add_callback() 新しく作ったスタイルが何か新しい #variable を参照するのなら, それらの変数を住まわせる(もしくは修正する)ためのコールバック関数を 定義する必要があります. それらは選択したスタイルで使うために 有効になります. コールバックは Concise が各opcodeを辿る際に, 追加されたのと同じ 順番に呼び出されます. 各関数には5つのパラメータが渡されます. 1. A hashref, containing the variable names and values which are populated into the report-line for the op 2. the op, as a B object 3. a reference to the format string 4. the formatting (indent) level 5. the selected stylename 1. ハッシュリファレンス, opに対してレポート行にある変数の名前と値. 2. op, B のオブジェクト. 3. 書式文字列へのリファレンス. 4. インデントレベル(字下げ幅). 5. 選択されているスタイル名. 独自の変数を定義するためには, 単にそれらをハッシュに追加, もしくは 必要であれば既存の値の変更と行うだけです. レベルと書式はスカラーへの リファレンスとして渡されますが, これを変更したり使ったりする必要は ないでしょう. =head2 B::Concise::compile() の実行 B は前に L で説明したオプションと, 関数リファレンスや関数名の引数を受け取ります. これはオブジェクトを構成して $treewalker コードリファレンスを返します. これを呼び出すことでツリーを辿り歩いて引数に与えられたoptreeをSTDOUT にレンダリングします. これは再利用することも出来, 毎回レンダリングスタイル を変えることで新しいスタイルでレンダリングされていきます. B は出力先をSTDOUTから他のファイルハンドルや渡された 文字列リファレンス(perlを-Uuseperlioでコンパイルした場合を除く)に 切り替えるものです. my $walker = B::Concise::compile('-terse','aFuncName', \&aSubRef); # 1 walk_output(\my $buf); $walker->(); # 1 renders -terse set_style_standard('concise'); # 2 $walker->(); # 2 renders -concise $walker->(@new); # 3 renders whatever print "3 different renderings: terse, concise, and @new: $buf\n"; $walker を呼び出すと作成時に渡した関数を辿り, 現在のスタイルで レンダリングします. スタイルの変更はいくつかの方法があります: 1. call C, altering style or mode/order 2. call C 3. call $walker, passing @new options 1. スタイルやモード/順序を変えて C を呼び出す. 2. C を呼び出す. 3. $walker に @new オプションを渡す. 指定済みのスタイルを変更する一番簡単な方法は $walker に 新しいオプションを渡すことでしょう. そしてそれは compile を再度呼ぶ 以外で唯一レンダリング順序を変更する方法です. しかしレンダリング状態は 複数の $walker オブジェクト間で共有されているためマナーを守って 扱う必要があります. =head2 B::Concise::reset_sequence() この関数(エクスポートはされません)は連番をリセットします. (これは 可読性のためのものが気まぐれになります.) この目的はテスト, つまり2つの無名関数(しかし異なるインスタンス)からの conciseの出力を比べるためでしょう. B::Concise はそれらを別々のoptree としてみるため, リセットしないことにはその出力の連番は異なってしまい ます. =head2 エラー 検出されたエラー(不正な引数, 内部エラー等)は die($message) とされます. これらのエラーを検出して処理を継続する場合には, eval を使ってください. 特に, B は存在しない関数名, 存在しない関数リファレンス, 関数以外のリファレンスを渡すとこれらは全て die となります. =head1 著者 Stephen McCamant, Esmcc@CSUA.Berkeley.EDUE.