拡張固有表現

拡張固有表現階層は、米国のMUCで規定された固有表現(Grishman et. al 1996)、 および、それを基に作成されたIREXの固有表現(Sekine et. al 2000)を源流とし、 関根の150種類の拡張固有表現階層定義(Sekine et. al 2002)を経て、 より幅広い固有表現のニーズに答えるべくして作成されたものである。 目的とする応用の一部には、新聞記事など一般的な内容を対象にした質問応答システム、幅広い分野を対象とした情報抽出、機械翻訳、情報検索や要約など幅広い自然言語処理の応用が挙げられる。例えば、質問応答システムにおいて答として知りたい事柄や情報抽出において文章から抽出したい事柄の典型的なものをクラスにまとめ、階層的に表現したものが拡張固有表現階層である。ここで対象にしている質問応答システムや情報抽出システムでは、知りたいことは、基本的に名詞句の形をした 事柄の具体的な名前や数値であるという前提に基いている。つまり、単純に言うと、それは一般的な概念に対する単語や、なんらかのクラスを意味するような単語や表現ではなく、その物や考え方のそのものを指さして示せる名前である。

拡張固有表現階層は、大きく3つのクラスに分れる。 名前、時間表現、数値表現である。 (この3つのクラスは、MUC,IREXの固有表現でも同じである。) これは、人が何か具体的な事柄を知りたい時には、この3つのカテゴリに含まれる 事柄を知りたいことが多いという経験に基いている。この3つのクラスをそれぞれ頂点とした拡張固有表現階層は、質問応答システムや情報抽出システムがその対象知識として設定している新聞記事、普通の百科事典などの一般的な知識に幅広く見られる概念や単語を考慮に入れて作成された。

定義