2019/11/05: Slackワークスペースへのリンクが期限切れとなっておりましたので、修正いたしました。

2019/7/12: 配布データ最終版を公開しました。以前のバージョンをお持ちの方は、最終版をダウンロードいただき、お使い頂ますようよろしくお願い致します。

評価型ワークショップとリソースの構築を同時に行う(RbCC)プロジェクト、森羅プロジェクト2019を開催いたします。

森羅プロジェクトについて

森羅プロジェクトは、 Wikipediaに書かれている世界知識を計算機が扱えるような形に変換することを目的として、Wikipediaを構造化するプロジェクトです。

Wikipediaの構造化を目指した先行プロジェクト(DBPedia, YAGO, Freebase, Wikidataなど)がすでに行われていますが、いずれのプロジェクトも首尾一貫した知識体系に基づいた構造を持っておらず、計算機で扱いにくい構造となっています。

私達は、名前のオントロジーである「拡張固有表現」にWikipediaの記事を分類し、拡張固有表現に定義されている属性情報を、分類されたWikipedia記事にアノテーションすることで、計算機利用可能な構造化を目指しています。

森羅プロジェクトは、属性情報のWikipedia記事へのアノテーションについて、様々なアプローチによる多数のシステムを評価型ワークショップを開催することで募り、それらを統合することで構造化データを構築する、RbCCの考えに基づくプロジェクトとなっています。

RbCC: Resource by Collaborative Contribution

世界知識を表現するオントロジーなどの大規模なリソースを、一人や単独のチームで構築することは非常に困難です。ですが、多くの人々が協力することができれば、決して不可能な目標ではありません。RbCCは、プロジェクト参加者がそれぞれ個別にリソース構築手法を出し合って、それらを統合することで効率的に大規模なリソースを実現するというアイディアです。

森羅2019の課題

拡張固有表現カテゴリーのうち、35種類のカテゴリーについて分類されたWikipedia記事データと、人手でアノテーションされた一部Wikipedia記事データを配布します。このアノテーション済みデータを参考に、未アノテーションデータにアノテーションを行う手法を募集します。

対象カテゴリー

  • JP-5カテゴリー(森羅2018でも対象としていたカテゴリー):
  • 人名、企業名、市区町村名、空港名、化合物名
  • JP-30カテゴリー(森羅2019より対象となるカテゴリー):
    • 地名関係 14カテゴリ(GPE_その他, 都道府県州郡名, 国名, 大陸地域名, 国内地域名, 地名_その他, 温泉名, 地形名_その他, 山地名, 島名, 河川名, 湖沼名, 海洋名, 湾名)
    • 組織名関係 16カテゴリ(組織名その他, 国際組織名, 公演組織名, 家系名, 民族名_その他,国籍名, 競技団体名, 競技リーグ名,競技連盟名, 非営利団体名, 企業グループ名, 政治的組織名_その他, 政府組織名, 政党名, 内閣名, 軍隊名)

配布データについて(6/10 最終更新)

  • カテゴリー別記事MediaWiki HTMLデータ 
    • アノテーション済みデータ
      • JP-5: 各カテゴリー900件
      • JP-30: 各カテゴリー100件
    • 未アノテーションデータ(カテゴリによってファイル数が異なります)
  • カテゴリー別記事テキストデータ(上記のHTMLデータの本文部分を抜粋)+ アノテーション情報データ
    • アノテーションのオフセットが記述されたJSONファイル

配布されるアノテーションデータは、以下のような構造です。

参加者が提出するデータ

"page_id": "1001711",            #該当記事のID
"title": "ハリファックス・ロバート・L・スタンフィールド国際空港", #該当記事名
"ENE": "1.6.5.3", #分類されるENE ID。ファイル名に含まれるカテゴリ名と対応しています
"attribute": "別名", #属性名
"html_offset": { #HTMLデータへのオフセット情報
"start": { #開始オフセット
"line_id": 75, #・行番号(開始行は0行です)
"offset": 451 #・オフセット開始位置
},
"end": { #終了オフセット
"line_id": 75, #・行番号
"offset": 462 #オフセット終了位置
},
"text": "ハリファックス国際空港" #該当位置のHTMLファイル上での文字列
},
"text_offset": { #テキストデータへのオフセット情報 形式はHTMLと同様です。
"start": {
"line_id": 75,
"offset": 111
},
"end": {
"line_id": 75,
"offset": 122
},
"text": "ハリファックス国際空港" #該当位置のテキストファイル上での文字列
}

参加者にはアノテーション結果(HTML、プレーンテキストのいずれか)を提出していただきます(配布されるアノテーション済みデータと共通の構造)。

森羅2018からの変更点

アノテーションタスクに変更:

配布されるデータは、アノテーション済みのデータと、参加システムのアノテーション対象となる未アノテーションデータのHTMLとそこから抽出したプレーンテキストファイルとなります。

・JP-30の追加:

新たに地名カテゴリー、組織名カテゴリー以下の30カテゴリがプロジェクトの対象カテゴリとして設定されます。2018で対象とした5カテゴリーをJP-5、新たに対象となるカテゴリーをJP-30と呼んでいます。参加にあたっては、これら35カテゴリーのうち、好きなものを対象に選んでいただけます。

カテゴリー定義

各カテゴリー・属性の定義は、拡張固有表現バージョン8.0.0に準拠します。

開催スケジュール

参加者コミュニティ

  • メーリングリスト(Google グループ)
    • 主に実行委員からのアナウンスのために利用します.どなたでもご参加いただけます.
  • Slackワークスペース
    • 参加者間/実行委員とのインタラクティブなコミュニケーションの場としてご用意いたしました.どなたでもご参加いただけます.
    • (2019/6/17にURLの誤りを修正しました.それ以前にご参加頂いた方はこちらから改めてご参加いただけますようお願いいたします.)

実行委員

【委員長】関根 聡

【委員】 乾健太郎(東北大)岩倉友哉(富士通連携)大関洋平(早稲田大)奥村学(東工大)小原京子(慶応大)河原大輔(京大)木村泰知(小樽商科大)後藤美知子(AIP)小林暁雄(AIP)小林隼人(Yahoo!)鈴木正敏(東北大)馬場雪乃(筑波大)松田耕史(東北大)吉岡真治(北大)<以上:AIP関係者>
相澤彰子(NII)浅原正幸(国研)荒牧英治(奈良先端大)安藤まや(LC)市瀬龍太郎(NII)宇佐美佑(合同会社宇佐美)荻野孝野(JSA)加藤恒昭(東大)菊井玄一郎(岡山県立大)黒橋禎夫(京大)古宮嘉那子(茨城大)榊剛史(ホットリンク)貞光九月(フューチャーアーキテクト)佐藤敏紀(LINE)進藤裕之(奈良先端大)新納浩幸(茨城大)鈴木久美(MS)須藤克仁(奈良先端大)高村大也(AIRC)徳永健伸(東工大)中野幹生(HRI)西田豊明(京大)林良彦(早稲田大)東中竜一郎(NTT)福本文代(山梨大)松井邦夫(金沢工大)宮尾祐介(NII)村上浩司(楽天)山田育矢(Studio Ousia)横野光(富士通研)