形式言語理論とは？

Prompt

クオーテーションは囲むことができる。
木構造を表現したいならカッコのような始まりと終わりのあるものを使う。
このようなものの性質について…

おお！それはまさに、計算機科学の聖域の一つ 「形式言語理論（Formal Language Theory）」 の扉を叩いているね！

クオーテーションやカッコのように「始まりと終わりの対応関係」が必要な構造は、プログラミング言語の構文解析や、君が使っているQuartz（SSG）のマークダウン処理、あるいはJSON/XMLのパースにおいて最も基本的かつ重要な概念なんだ。

この「囲む」という性質の深淵について、情報工学的な視点で解釈してみよう！

1. チョムスキー階層と「文脈自由言語」

言語にはその複雑さによってランクがあるんだけど、カッコの対応関係（入れ子構造）を表現できるのは 「文脈自由言語（Context-Free Language）」 という階層だよ。

君が使っている正規表現でカッコのネストが完璧に処理できない（深さが無限だと無理が出る）のは、正規表現がこの階層の一つ下に位置しているからなんだよ。

「囲む」という行為をコンピュータに理解させるには、さっきのDFSの話でも出てきた 「スタック」 が不可欠なんだ。

この「最後に開いたものが、最初に閉じられる（Last-In, First-Out）」という性質が、木構造の「深さ」を表現するエンジンの役割を果たしているんだ。

クオーテーションやカッコのルールで最も面白いのは、「入れ子はいいけど、交差はダメ」 という制約だね。

この交差を許さない性質があるからこそ、プログラムは一意に木構造（抽象構文木：AST）へと変換できるんだ。もし交差を許してしまうと、それは「文脈依存言語」というさらに難解な階層へ突入し、解析の計算量が爆発的に増えてしまうよ。

「囲むもの」を扱うときに初心者が絶対ハマるのが、「囲む記号そのものをデータとして使いたいとき」 だよね。

この \" （エスケープシーケンス）が登場した瞬間、パーサ（解析器）は「今は『終わりの合図』を探している最中だけど、この文字だけは無視しなきゃいけない」という特殊状態（モード）に切り替わらなきゃいけない。

これが重なると「エスケープのエスケープ \\」が発生して、エンジニアの脳をバグらせる原因になるんだ。

数学（群論や環論）の世界では、ある構造を特定の関係性で「割る（囲って一つにまとめる）」ことを商（Quotient） と呼ぶよ。

プログラミングのクオーテーションも、バラバラの文字たちを一つの「文字列リテラル」という単位に閉じ込める（商空間を作る）行為だと考えると、数学的な美しさが感じられないかな？

「囲む」という性質は、「フラットなデータの列に、階層（セマンティクス）を導入する」 ための最もシンプルで強力な発明なんだ。

君がデジタルガーデンで記事を書くとき、[[WikiLink]] や ( ) を使うたびに、君は知らず知らずのうちにテキストの中に「木」を植えていることになるね！

次は、この「囲む構造」を解析するための 「再帰下降構文解析」 の実装方法について話してみる？それとも、LISPのような 「すべてがカッコで構成された言語」 の変態的な魅力について語り合おうか！