Software/Data
Software
-
NGT(Neighborhood Graph and Tree for Indexing)
概要
大量の高次元ベクトルデータからクエリとして指定されたベクトルデータの近傍に存在するデータを高速に検索するソフトウェアです。
提供方法
-
big3store
概要
大規模知識データを本格的に利用するための分散RDFストレージマネジャのプロトタイプシステムです。
提供方法
-
AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-Label Classification
概要
ラベルの種類数が膨大な場合(10^4 - 10^6)のマルチラベル分類問題に対し、高速かつ精度良く予測を行う分類器の実装です。
提供方法
-
yskip: Incremental Skip-gram Model with Negative Sampling
概要
skip-gram model with negative samplingの逐次学習アルゴリズムのC++実装です。
技術解説(Yahoo! JAPAN Tech Blog):https://techblog.yahoo.co.jp/oss/yskip/
論文:Incremental Skip-gram Model with Negative Sampling(外部サイト)
提供方法
-
japanese-large-lm
概要
LINEが訓練・公開している36億および17億パラメータの日本語言語モデルです。
詳細についてはブログ記事をご確認ください。 https://engineering.linecorp.com/ja/blog/3.6-billion-parameter-japanese-language-model提供方法
-
japanese-large-lm-instruction-sft
概要
japanese-large-lmをInstruction Tuningという手法を用いて、対話性能を向上させたモデルです。
詳細についてはブログ記事をご確認ください。 https://engineering.linecorp.com/ja/blog/3.6b-japanese-language-model-with-improved-dialog-performance-by-instruction-tuning提供方法
-
LINE DistilBERT Japanese
概要
高性能・高速・軽量な日本語言語モデルです。日本語自然言語理解のベンチマークであるJGLUEの全てのタスクにおいて、Laboro DistilBERTやBandaiNamco DistilBERTといった既存の日本語DistilBERTを超える性能を実現しています。
詳細についてはブログ記事をご確認ください。 https://engineering.linecorp.com/ja/blog/line-distilbert-high-performance-fast-lightweight-japanese-language-model提供方法
-
Meta AI Video Similarity Challenge - 3rd Place Solution
概要
動画コピー検出の精度を競うコンペティション:Meta AI Video Similarity Challengeで、Descriptor Track / Matching Trackの2つのトラックで3位入賞した際の解法コードです。
提供方法
Data
-
VFD Dataset (Japanese)
概要
言語処理のトップ会議EMNLPにて発表した論文“A Visually-grounded First-person Dialogue Dataset with Verbal and Non-verbal Responses”のデータセットです。
論文では様々な社会的状況で画像内の人物が話しかけた言葉の返答をモデル化しています。
本データセットはGazeFollow Dataset (Recasens et al.,2015)に基づいており、GazeFollow Datasetに存在する、(1)シーン画像、(2)話者の視線情報を引き継いでいます。 論文で使用したデータセットを作成するため、新たに日本語で(3)話者の発話テキスト、および(4)返答者の言語的および非言語的返答の2つのアノテーションを弊社クラウドソーシングサービスを利用して付与しました。
画像はhttp://gazefollow.csail.mit.edu/(外部サイト)で入手可能です。提供方法
-
Yahoo!知恵袋データ(第3版)
概要
Yahoo!知恵袋は知恵共有のサービスで、参加者がお互いに知恵や知識をQ&Aやノートで共有できます。本データは、ヤフー株式会社が下記の期間にYahoo!知恵袋のデータベースから抽出した解決済みの質問と回答です。
期間:2016年4月1日-2019年3月31日
質問数:約263万
回答数:約670万
提供方法
国立情報学研究所(NII)(外部サイト)のホームページからのダウンロードの形式で公開してます。利用に関する詳細、お申し込みは国立情報学研究所(NII)の「Yahoo! 知恵袋データ(第3版)」利用手続きのページ(外部サイト)をご確認ください。
-
Yahoo!検索の検索クエリデータ
概要
本データは以下の期間に「Yahoo!検索」で検索された全クエリ(ユーザーが検索時に入力した単語やフレーズ)の中から、NTCIRの第12サイクル(NTCIR-12)で設定された研究課題に対する関連度の高いクエリを抽出したものです。本データで使用しているのは異なる数十人以上のユーザーが検索に用いたクエリに限られ、「Yahoo!検索」ユーザー個人の操作履歴や識別子、属性といった個人情報は一切含んでいません。
期間:2009年7月-2013年6月
提供方法
情報アクセス技術の評価ワークショップ NTCIR (情報検索システム評価用テストコレクション構築プロジェクト NII Testbeds and Community for Information access Research)(外部サイト) の参加者向けに提供され、同ワークショップに参加する研究グループが無償で活用できます。
詳細は、NTCIR(外部サイト)のページをご確認ください。
※Yahoo! JAPAN 提供のデータを使用するタスクへの参加申し込みは終了しています。 -
YJ Captions Dataset
概要
YJ Captions DataはMS COCOデータセット(外部サイト)をベースにした、日本語の画像キャプションデータセットです。マイクロソフトによりリリースされたMS COCOの画像に対し、新たに弊社クラウドソーシングサービスを利用して、画像の内容を説明するキャプションを日本語で付与しました。画像自体はMS COCOのサイトからまとめてダウンロード可能です。
キャプション数:約12万
提供方法
-
YJ Chat Detection Dataset
概要
本データは(Akasaki and Kaji ACL 2017)(外部サイト)において使用された雑談発話検出のためのデータセットです。
提供方法
本データは研究目的に限りご利用いただけます。
ヤフー雑談検出研究対象発話内容書き起こしデータ 使用申請書に必要事項をご記入のうえ以下のメールアドレスまでお願いします。
メールアドレス:ml-lyresearch-data "at" lycorp.co.jp
大学または企業の研究者の申請に限らせていただきます。学生の方が利用する場合は、指導教員の方に申請をしていただけますようお願いします。 -
Japanese Visual Genome VQA Dataset
概要
Japanese Visual Genome VQA DatasetはVisual Genome(外部サイト)をベースにした日本初の大規模なVisual Question Answering (VQA)データセットです。新たに弊社クラウドソーシングサービスを利用して、Visual Genome DatasetのFreeform QAに対応する日本語のQAを付与しました。画像自体はVisual Genomeのサイトからまとめてダウンロード可能です。
QAペア数:約80万
提供方法
-
Visual Scenes with Utterances Dataset
概要
人工知能のトップ会議IJCAIにて発表した論文“Deep Learning Based Multi-modal Addressee Recognition in Visual Scenes with Utterances”のデータセットです。
論文では様々な社会的状況で画像内の人物が話しかけている相手を予測しています。
本データセットはGazeFollow Dataset (Recasens et al.,2015)に基づいており、GazeFollow Datasetに存在する、(1)シーン画像、(2)話者の画像と頭の位置情報、および(3)話者の視線情報を引き継いでいます。 論文で使用したデータセットを作成するため、新たに(4)話者の発話テキスト、および(5)発話が宛てられた人の2つのアノテーションを弊社クラウドソーシングサービスを利用して付与しました。
画像はhttp://gazefollow.csail.mit.edu/(外部サイト)で入手可能です。提供方法
-
Experimental Dataset for Post-Ensemble Methods
概要
本データは以下の論文で事後アンサンブル手法の比較のために使われた128個の要約モデルとその出力を含むデータセットです。
論文:Frustratingly Easy Model Ensemble for Abstractive Summarization (EMNLP 2018)
提供方法
-
ヤフー防災クラウドデータ
概要
本データは以下の論文で使用された防災クラウドデータ(防災アプリから得られた都市動態の集計データ)です。
論文:DeepCrowd: A Deep Model for Large-Scale Citywide Crowd Density and Flow Prediction (IEEE TKDE)
期間:2017年4月1日〜7月9日(100日間)
エリア:東京都と大阪府の地域のみ
メッシュサイズ:約450mメッシュ
(スコアの正規化、k匿名性処理済み)提供方法
本データは研究目的に限り、ご利用いただけます。
利用される場合は、まず「ヤフー防災クラウドデータ使用申請書」をご確認ください。
内容に同意される場合、申請書に必要事項をご記入ください(申請書の下線より下の欄は記入不要です)。申請書をPDFにしていただき、メールに添付の上、以下のメールアドレスまでご送信ください。
メールアドレス:ml-lyresearch-data "at" lycorp.co.jp
なお、大学または企業の研究者の申請に限らせていただきます。学生の方が利用する場合は、責任の取れる指導教員の先生等からご申請をいただくようよろしくお願いします。 -
JGLUE: Japanese General Language Understanding Evaluation
概要
本データは日本語言語理解ベンチマークで、モデルの学習・評価に用いることができます。文書分類タスク、文ペア分類タスク、質問応答タスクが含まれます。本ベンチマークは早稲田大学河原研究室との共同研究で構築しました。
提供方法
-
YJ Covid-19 Prediction Data
概要
本データは以下の論文で使用されたYJ Covid-19 Prediction Data(位置集計データと検索集計データからCovid-19の新規感染者数を予測するデータ)です。
論文:Multiwave COVID-19 Prediction from Social Awareness using Web Search and Mobility Data (KDD2022)
mobility data
期間:2020年2月〜2021年6月
エリア:東京23区のみ
search data
期間:2020年2月〜2021年6月
対象検索クエリ:論文に掲載されている44のcovid-19症状クエリ
提供方法
本データは研究目的に限り、ご利用いただけます。
利用される場合は、まず「Application for Use of “YJ Covid-19 Prediction Data”」をご確認ください。
内容に同意される場合、申請書に必要事項をご記入ください。申請書をPDFにしていただき、メールに添付の上、以下のデータ使用申請書送付先までご送信ください。
メールアドレス:ml-lyresearch-data "at" lycorp.co.jp
なお、大学または企業の研究者の申請に限らせていただきます。学生の方が利用する場合は、責任の取れる指導教員の先生等からご申請をいただくようよろしくお願いします。 -
LibriTTS-P
概要
音声処理における世界最大規模の国際学会INTERSPEECH 2024に採択された論文"LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning"のデータセットです。
LibriTTS-Pは、発話のスタイルや話者の特徴を記述したプロンプトを含むコーパスで、公開されている音声データセットLibriTTS-R(585時間)に対してアノテーションを行っています。
今回作成したLibriTTS-Pは、2,443の話者に対して合計373,868個のプロンプトが含まれています。提供方法