Software/Data

Software

NGT
big3store
AnnexML
yskip
japanese-large-lm
japanese-large-lm-instruction-sft
LINE DistilBERT Japanese
Meta AI Video Similarity Challenge - 3rd Place Solution
Tappy

Data

VFD Dataset (Japanese)
Yahoo!検索の検索クエリデータ
YJ Captions Dataset
YJ Chat Detection Dataset
Japanese Visual Genome VQA Dataset
Visual Scenes with Utterances Dataset
Experimental Dataset for Post-Ensemble Methods
ヤフー防災クラウドデータ
JGLUE: Japanese General Language Understanding Evaluation
YJ Covid-19 Prediction Data
LibriTTS-P
YJ AmbigDialogue

Software

NGT（Neighborhood Graph and Tree for Indexing）

概要

大量の高次元ベクトルデータからクエリとして指定されたベクトルデータの近傍に存在するデータを高速に検索するソフトウェアです。

提供方法

ソフトウェアダウンロード（外部サイト）
big3store

概要

大規模知識データを本格的に利用するための分散RDFストレージマネジャのプロトタイプシステムです。

提供方法

ソフトウェアダウンロード（外部サイト）
AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-Label Classification

概要

ラベルの種類数が膨大な場合（10^4 - 10^6）のマルチラベル分類問題に対し、高速かつ精度良く予測を行う分類器の実装です。

提供方法

ソフトウェアダウンロード（外部サイト）
yskip: Incremental Skip-gram Model with Negative Sampling

概要

skip-gram model with negative samplingの逐次学習アルゴリズムのC++実装です。

技術解説（Yahoo! JAPAN Tech Blog）：https://techblog.yahoo.co.jp/oss/yskip/
論文：Incremental Skip-gram Model with Negative Sampling（外部サイト）

提供方法

ソフトウェアダウンロード（外部サイト）
japanese-large-lm

概要

LINEが訓練・公開している36億および17億パラメータの日本語言語モデルです。
詳細についてはブログ記事をご確認ください。 https://engineering.linecorp.com/ja/blog/3.6-billion-parameter-japanese-language-model

提供方法

ソフトウェアダウンロード（36億モデル、外部サイト）
ソフトウェアダウンロード（17億モデル、外部サイト）
japanese-large-lm-instruction-sft

概要

japanese-large-lmをInstruction Tuningという手法を用いて、対話性能を向上させたモデルです。
詳細についてはブログ記事をご確認ください。 https://engineering.linecorp.com/ja/blog/3.6b-japanese-language-model-with-improved-dialog-performance-by-instruction-tuning

提供方法

ソフトウェアダウンロード（外部サイト）
LINE DistilBERT Japanese

概要

高性能・高速・軽量な日本語言語モデルです。日本語自然言語理解のベンチマークであるJGLUEの全てのタスクにおいて、Laboro DistilBERTやBandaiNamco DistilBERTといった既存の日本語DistilBERTを超える性能を実現しています。
詳細についてはブログ記事をご確認ください。 https://engineering.linecorp.com/ja/blog/line-distilbert-high-performance-fast-lightweight-japanese-language-model

提供方法

ソフトウェアダウンロード（外部サイト）
Meta AI Video Similarity Challenge - 3rd Place Solution

概要

動画コピー検出の精度を競うコンペティション：Meta AI Video Similarity Challengeで、Descriptor Track / Matching Trackの2つのトラックで3位入賞した際の解法コードです。

提供方法

ソフトウェアダウンロード（外部サイト）
Tappy

概要

ウェブページ上のボタン、リンク、その他の要素のサイズを分析し、タップ成功率を出力します。

提供方法

ソフトウェアダウンロード（外部サイト）

Data

VFD Dataset (Japanese)

概要

言語処理のトップ会議EMNLPにて発表した論文“A Visually-grounded First-person Dialogue Dataset with Verbal and Non-verbal Responses”のデータセットです。
論文では様々な社会的状況で画像内の人物が話しかけた言葉の返答をモデル化しています。
本データセットはGazeFollow Dataset （Recasens et al.,2015）に基づいており、GazeFollow Datasetに存在する、（1）シーン画像、（2）話者の視線情報を引き継いでいます。論文で使用したデータセットを作成するため、新たに日本語で（3）話者の発話テキスト、および（4）返答者の言語的および非言語的返答の２つのアノテーションを弊社クラウドソーシングサービスを利用して付与しました。
画像はhttp://gazefollow.csail.mit.edu/（外部サイト）で入手可能です。

提供方法

データダウンロード（外部サイト）
Yahoo!検索の検索クエリデータ

概要

本データは以下の期間に「Yahoo!検索」で検索された全クエリ(ユーザーが検索時に入力した単語やフレーズ)の中から、NTCIRの第12サイクル(NTCIR-12)で設定された研究課題に対する関連度の高いクエリを抽出したものです。本データで使用しているのは異なる数十人以上のユーザーが検索に用いたクエリに限られ、「Yahoo!検索」ユーザー個人の操作履歴や識別子、属性といった個人情報は一切含んでいません。

期間：2009年7月－2013年6月

提供方法

情報アクセス技術の評価ワークショップ NTCIR (情報検索システム評価用テストコレクション構築プロジェクト NII Testbeds and Community for Information access Research)（外部サイト）の参加者向けに提供され、同ワークショップに参加する研究グループが無償で活用できます。
詳細は、NTCIR（外部サイト）のページをご確認ください。
※Yahoo! JAPAN 提供のデータを使用するタスクへの参加申し込みは終了しています。
YJ Captions Dataset

概要

YJ Captions DataはMS COCOデータセット（外部サイト）をベースにした、日本語の画像キャプションデータセットです。マイクロソフトによりリリースされたMS COCOの画像に対し、新たに弊社クラウドソーシングサービスを利用して、画像の内容を説明するキャプションを日本語で付与しました。画像自体はMS COCOのサイトからまとめてダウンロード可能です。

キャプション数：約12万

提供方法

データダウンロード（外部サイト）
YJ Chat Detection Dataset

概要

本データは(Akasaki and Kaji ACL 2017)（外部サイト）において使用された雑談発話検出のためのデータセットです。

提供方法

本データは研究目的に限りご利用いただけます。
ヤフー雑談検出研究対象発話内容書き起こしデータ　使用申請書に必要事項をご記入のうえ以下のメールアドレスまでお願いします。
メールアドレス：ml-lyresearch-data "at" lycorp.co.jp
大学または企業の研究者の申請に限らせていただきます。学生の方が利用する場合は、指導教員の方に申請をしていただけますようお願いします。
Japanese Visual Genome VQA Dataset

概要

Japanese Visual Genome VQA DatasetはVisual Genome（外部サイト）をベースにした日本初の大規模なVisual Question Answering (VQA)データセットです。新たに弊社クラウドソーシングサービスを利用して、Visual Genome DatasetのFreeform QAに対応する日本語のQAを付与しました。画像自体はVisual Genomeのサイトからまとめてダウンロード可能です。

QAペア数：約80万

提供方法

データダウンロード（外部サイト）
Visual Scenes with Utterances Dataset

概要

人工知能のトップ会議IJCAIにて発表した論文“Deep Learning Based Multi-modal Addressee Recognition in Visual Scenes with Utterances”のデータセットです。
論文では様々な社会的状況で画像内の人物が話しかけている相手を予測しています。
本データセットはGazeFollow Dataset （Recasens et al.,2015）に基づいており、GazeFollow Datasetに存在する、（1）シーン画像、（2）話者の画像と頭の位置情報、および（3）話者の視線情報を引き継いでいます。論文で使用したデータセットを作成するため、新たに（4）話者の発話テキスト、および（5）発話が宛てられた人の２つのアノテーションを弊社クラウドソーシングサービスを利用して付与しました。
画像はhttp://gazefollow.csail.mit.edu/（外部サイト）で入手可能です。

提供方法

データダウンロード（外部サイト）
Experimental Dataset for Post-Ensemble Methods

概要

本データは以下の論文で事後アンサンブル手法の比較のために使われた128個の要約モデルとその出力を含むデータセットです。

論文：Frustratingly Easy Model Ensemble for Abstractive Summarization (EMNLP 2018)

提供方法

データダウンロード
ヤフー防災クラウドデータ

概要

本データは以下の論文で使用された防災クラウドデータ（防災アプリから得られた都市動態の集計データ）です。

論文：DeepCrowd: A Deep Model for Large-Scale Citywide Crowd Density and Flow Prediction (IEEE TKDE)
期間：2017年4月1日〜7月9日（100日間）
エリア：東京都と大阪府の地域のみ
メッシュサイズ：約450mメッシュ
（スコアの正規化、k匿名性処理済み）

提供方法
本データは研究目的に限り、ご利用いただけます。
利用される場合は、まず「ヤフー防災クラウドデータ使用申請書」をご確認ください。
内容に同意される場合、申請書に必要事項をご記入ください（申請書の下線より下の欄は記入不要です）。申請書をPDFにしていただき、メールに添付の上、以下のメールアドレスまでご送信ください。
メールアドレス：ml-lyresearch-data "at" lycorp.co.jp
なお、大学または企業の研究者の申請に限らせていただきます。学生の方が利用する場合は、責任の取れる指導教員の先生等からご申請をいただくようよろしくお願いします。
JGLUE: Japanese General Language Understanding Evaluation

概要

本データは日本語言語理解ベンチマークで、モデルの学習・評価に用いることができます。文書分類タスク、文ペア分類タスク、質問応答タスクが含まれます。本ベンチマークは早稲田大学河原研究室との共同研究で構築しました。

提供方法

データダウンロード（外部サイト）
YJ Covid-19 Prediction Data

概要

本データは以下の論文で使用されたYJ Covid-19 Prediction Data（位置集計データと検索集計データからCovid-19の新規感染者数を予測するデータ）です。

論文：Multiwave COVID-19 Prediction from Social Awareness using Web Search and Mobility Data (KDD2022)

mobility data
期間：2020年2月〜2021年6月
エリア：東京23区のみ

search data
期間：2020年2月〜2021年6月
対象検索クエリ：論文に掲載されている44のcovid-19症状クエリ

提供方法
本データは研究目的に限り、ご利用いただけます。
利用される場合は、まず「Application for Use of “YJ Covid-19 Prediction Data”」をご確認ください。
内容に同意される場合、申請書に必要事項をご記入ください。申請書をPDFにしていただき、メールに添付の上、以下のデータ使用申請書送付先までご送信ください。
メールアドレス：ml-lyresearch-data "at" lycorp.co.jp
なお、大学または企業の研究者の申請に限らせていただきます。学生の方が利用する場合は、責任の取れる指導教員の先生等からご申請をいただくようよろしくお願いします。
LibriTTS-P

概要

音声処理における世界最大規模の国際学会INTERSPEECH 2024に採択された論文"LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning"のデータセットです。
LibriTTS-Pは、発話のスタイルや話者の特徴を記述したプロンプトを含むコーパスで、公開されている音声データセットLibriTTS-R（585時間）に対してアノテーションを行っています。
今回作成したLibriTTS-Pは、2,443の話者に対して合計373,868個のプロンプトが含まれています。

提供方法

データダウンロード（外部サイト）
YJ AmbigDialogue

概要

本データは(Akasaki and Sassano EMNLP 2024) (外部サイト)において使用された対話システムにおける曖昧な発話検出のためのデータセットです。

提供方法

データダウンロード（外部サイト）

Software/Data

Software

Data

Software

NGT（Neighborhood Graph and Tree for Indexing）

概要

提供方法

big3store

概要

提供方法

AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-Label Classification

概要

提供方法

yskip: Incremental Skip-gram Model with Negative Sampling

概要

提供方法

japanese-large-lm

概要

提供方法

japanese-large-lm-instruction-sft

概要

提供方法

LINE DistilBERT Japanese

概要

提供方法

Meta AI Video Similarity Challenge - 3rd Place Solution

概要

提供方法

Tappy

概要

提供方法

Data

VFD Dataset (Japanese)

概要

提供方法

Yahoo!検索の検索クエリデータ

概要

提供方法

YJ Captions Dataset

概要

提供方法

YJ Chat Detection Dataset

概要

提供方法

Japanese Visual Genome VQA Dataset

概要

提供方法

Visual Scenes with Utterances Dataset

概要

提供方法

Experimental Dataset for Post-Ensemble Methods

概要

提供方法

ヤフー防災クラウドデータ

概要

提供方法

JGLUE: Japanese General Language Understanding Evaluation

概要

提供方法

YJ Covid-19 Prediction Data

概要

提供方法

LibriTTS-P

概要

提供方法

YJ AmbigDialogue

概要

提供方法