Software/Data

Software

Data

Software

Data

  • VFD Dataset (Japanese)

    概要

    言語処理のトップ会議EMNLPにて発表した論文“A Visually-grounded First-person Dialogue Dataset with Verbal and Non-verbal Responses”のデータセットです。
    論文では様々な社会的状況で画像内の人物が話しかけた言葉の返答をモデル化しています。
    本データセットはGazeFollow Dataset (Recasens et al.,2015)に基づいており、GazeFollow Datasetに存在する、(1)シーン画像、(2)話者の視線情報を引き継いでいます。 論文で使用したデータセットを作成するため、新たに日本語で(3)話者の発話テキスト、および(4)返答者の言語的および非言語的返答の2つのアノテーションを弊社クラウドソーシングサービスを利用して付与しました。
    画像はhttp://gazefollow.csail.mit.edu/(外部サイト)で入手可能です。

    提供方法

  • Yahoo!知恵袋データ(第3版)

    概要

    Yahoo!知恵袋は知恵共有のサービスで、参加者がお互いに知恵や知識をQ&Aやノートで共有できます。本データは、ヤフー株式会社が下記の期間にYahoo!知恵袋のデータベースから抽出した解決済みの質問と回答です。

    期間:2016年4月1日-2019年3月31日
    質問数:約263万
    回答数:約670万

    提供方法

    国立情報学研究所(NII)(外部サイト)のホームページからのダウンロードの形式で公開してます。利用に関する詳細、お申し込みは国立情報学研究所(NII)の「Yahoo! 知恵袋データ(第3版)」利用手続きのページ(外部サイト)をご確認ください。

  • Yahoo!検索の検索クエリデータ

    概要

    本データは以下の期間に「Yahoo!検索」で検索された全クエリ(ユーザーが検索時に入力した単語やフレーズ)の中から、NTCIRの第12サイクル(NTCIR-12)で設定された研究課題に対する関連度の高いクエリを抽出したものです。本データで使用しているのは異なる数十人以上のユーザーが検索に用いたクエリに限られ、「Yahoo!検索」ユーザー個人の操作履歴や識別子、属性といった個人情報は一切含んでいません。

    期間:2009年7月-2013年6月

    提供方法

    情報アクセス技術の評価ワークショップ NTCIR (情報検索システム評価用テストコレクション構築プロジェクト NII Testbeds and Community for Information access Research)(外部サイト) の参加者向けに提供され、同ワークショップに参加する研究グループが無償で活用できます。
    詳細は、NTCIR(外部サイト)のページをご確認ください。
    ※Yahoo! JAPAN 提供のデータを使用するタスクへの参加申し込みは終了しています。

  • YJ Captions Dataset

    概要

    YJ Captions DataはMS COCOデータセット(外部サイト)をベースにした、日本語の画像キャプションデータセットです。マイクロソフトによりリリースされたMS COCOの画像に対し、新たに弊社クラウドソーシングサービスを利用して、画像の内容を説明するキャプションを日本語で付与しました。画像自体はMS COCOのサイトからまとめてダウンロード可能です。

    キャプション数:約12万

    提供方法

  • YJ Chat Detection Dataset

    概要

    本データは(Akasaki and Kaji ACL 2017)(外部サイト)において使用された雑談発話検出のためのデータセットです。

    提供方法

    本データは研究目的に限りご利用いただけます。
    ヤフー雑談検出研究対象発話内容書き起こしデータ 使用申請書に必要事項をご記入のうえ以下のメールアドレスまでお願いします。
    メールアドレス:ml-lyresearch-data "at" lycorp.co.jp
    大学または企業の研究者の申請に限らせていただきます。学生の方が利用する場合は、指導教員の方に申請をしていただけますようお願いします。

  • Japanese Visual Genome VQA Dataset

    概要

    Japanese Visual Genome VQA DatasetはVisual Genome(外部サイト)をベースにした日本初の大規模なVisual Question Answering (VQA)データセットです。新たに弊社クラウドソーシングサービスを利用して、Visual Genome DatasetのFreeform QAに対応する日本語のQAを付与しました。画像自体はVisual Genomeのサイトからまとめてダウンロード可能です。

    QAペア数:約80万

    提供方法

  • Visual Scenes with Utterances Dataset

    概要

    人工知能のトップ会議IJCAIにて発表した論文“Deep Learning Based Multi-modal Addressee Recognition in Visual Scenes with Utterances”のデータセットです。
    論文では様々な社会的状況で画像内の人物が話しかけている相手を予測しています。
    本データセットはGazeFollow Dataset (Recasens et al.,2015)に基づいており、GazeFollow Datasetに存在する、(1)シーン画像、(2)話者の画像と頭の位置情報、および(3)話者の視線情報を引き継いでいます。 論文で使用したデータセットを作成するため、新たに(4)話者の発話テキスト、および(5)発話が宛てられた人の2つのアノテーションを弊社クラウドソーシングサービスを利用して付与しました。
    画像はhttp://gazefollow.csail.mit.edu/(外部サイト)で入手可能です。

    提供方法

  • Experimental Dataset for Post-Ensemble Methods

    概要

    本データは以下の論文で事後アンサンブル手法の比較のために使われた128個の要約モデルとその出力を含むデータセットです。

    論文:Frustratingly Easy Model Ensemble for Abstractive Summarization (EMNLP 2018)

    提供方法

  • ヤフー防災クラウドデータ

    概要

    本データは以下の論文で使用された防災クラウドデータ(防災アプリから得られた都市動態の集計データ)です。

    論文:DeepCrowd: A Deep Model for Large-Scale Citywide Crowd Density and Flow Prediction (IEEE TKDE)
    期間:2017年4月1日〜7月9日(100日間)
    エリア:東京都と大阪府の地域のみ
    メッシュサイズ:約450mメッシュ
    (スコアの正規化、k匿名性処理済み)

    提供方法

    本データは研究目的に限り、ご利用いただけます。
    利用される場合は、まず「ヤフー防災クラウドデータ使用申請書」をご確認ください。
    内容に同意される場合、申請書に必要事項をご記入ください(申請書の下線より下の欄は記入不要です)。申請書をPDFにしていただき、メールに添付の上、以下のメールアドレスまでご送信ください。
    メールアドレス:ml-lyresearch-data "at" lycorp.co.jp
    なお、大学または企業の研究者の申請に限らせていただきます。学生の方が利用する場合は、責任の取れる指導教員の先生等からご申請をいただくようよろしくお願いします。
  • JGLUE: Japanese General Language Understanding Evaluation

    概要

    本データは日本語言語理解ベンチマークで、モデルの学習・評価に用いることができます。文書分類タスク、文ペア分類タスク、質問応答タスクが含まれます。本ベンチマークは早稲田大学河原研究室との共同研究で構築しました。

    提供方法

  • YJ Covid-19 Prediction Data

    概要

    本データは以下の論文で使用されたYJ Covid-19 Prediction Data(位置集計データと検索集計データからCovid-19の新規感染者数を予測するデータ)です。

    論文:Multiwave COVID-19 Prediction from Social Awareness using Web Search and Mobility Data (KDD2022)

    mobility data
    期間:2020年2月〜2021年6月
    エリア:東京23区のみ

    search data
    期間:2020年2月〜2021年6月
    対象検索クエリ:論文に掲載されている44のcovid-19症状クエリ

    提供方法

    本データは研究目的に限り、ご利用いただけます。
    利用される場合は、まず「Application for Use of “YJ Covid-19 Prediction Data”」をご確認ください。
    内容に同意される場合、申請書に必要事項をご記入ください。申請書をPDFにしていただき、メールに添付の上、以下のデータ使用申請書送付先までご送信ください。
    メールアドレス:ml-lyresearch-data "at" lycorp.co.jp
    なお、大学または企業の研究者の申請に限らせていただきます。学生の方が利用する場合は、責任の取れる指導教員の先生等からご申請をいただくようよろしくお願いします。
  • LibriTTS-P

    概要

    音声処理における世界最大規模の国際学会INTERSPEECH 2024に採択された論文"LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning"のデータセットです。
    LibriTTS-Pは、発話のスタイルや話者の特徴を記述したプロンプトを含むコーパスで、公開されている音声データセットLibriTTS-R(585時間)に対してアノテーションを行っています。
    今回作成したLibriTTS-Pは、2,443の話者に対して合計373,868個のプロンプトが含まれています。

    提供方法