新着情報

    概要

    LLMの開発のためには「インストラクションデータ」が非常に重要であることがOpenAIの論文などから分かっています。しかし、大規模&高品質で、商用利用可能な日本語インストラクションデータは存在しません(2023年夏現在)。そこで、理研AIPの言語情報アクセス技術チームでは、2024年3月末を目処に、OpenAIのInstructGPTのFine Tuningで利用されたインストラクションデータと同等規模(1万を目標)の日本語インストラクションを開発するプロジェクトを開始しました。

    データを利用した評価結果(抜粋)

    共同研究に参加していただいている「マネーフォーワード」様のhououシステムの評価結果です。Version-003-001データを利用して頂いております。システムはこちらで公開されています。(https://huggingface.co/moneyforward/houou-instruction-7b-v2

     

    他者含め、より多くの利用結果の情報は「データ公開ページ」に記載されています。

    共同研究

    本データ作成に興味を持つ共同研究企業の募集は2023年10月31日までで終了させていただきました。ただし、共同研究以外の企業・団体に対しても、データ完成時に有償にてデータの商用ライセンスを提供します(下記、「共同研究外企業へのライセンスの提供」をご覧ください)

    • 共同研究スキーム説明資料
    • 共同研究契約締結企業18社様(2024年3月9日時点)
      • 株式会社日本総合研究所
      • 三菱電機株式会社
      • 株式会社マネーフォワード
      • ストックマーク株式会社
      • 株式会社レトリバ
      • 株式会社オルツ
      • 株式会社フィックスターズ
      • ソフトバンク株式会社
      • ファーストアカウンティング株式会社
      • みずほリサーチ&テクノロジーズ株式会社
      • 株式会社リコー
      • TOPPANデジタル株式会社
      • 株式会社JSOL
      • 株式会社ELYZA
      • 株式会社サイバーエージェント
      • 日本電気株式会社
      • Stability AI Japan株式会社
      • 他匿名1社
    • 連絡先:satoshi.sekine  (at)  riken.jp

    共同研究外企業へのライセンスの提供

    共同研究にご参加頂かなかった企業向けにも本データの商用利用可能ライセンスをご提供しております。ご提供は4月1日以降になりますが、契約手続きにも時間がかかりますので、受付を開始します。「提供スキーム資料」をご覧の上、下記までご連絡下さい。

    • 連絡先:satoshi.sekine  (at)  riken.jp

    イベント

    第2回 説明会(2023年10月2日)

    このプロジェクトの目的や概要を説明し、すでに作成した約1000のインストラクションの内からの例やその作成過程で見えている問題点、プロジェクトへの共同研究の参加方法を説明し、参加者からの意見をいただくための説明会を開催しました。

    第1回 説明会(2023年7月31日)

    このプロジェクトの目的や概要を説明し、作成するインストラクションの例や作成スキームを提示し、参加者からの意見をいただくための説明会を開催しました。

    主催

    理化学研究所 革新知能統合研究センター 言語情報アクセス技術チーム

    コメントを残す

    メールアドレスが公開されることはありません。 * が付いている欄は必須項目です