CAVIARES: Corpus including Audio-Visual, Instructed, Affective Recordings of Empathetic Speech

ダウンロード (Download link):
SRC4VC_ver1.zip (Feb. 29: ver. 1 w/ 3.4 GB)

サンプルページ (Sample page):
Sample

概要:

CAVIARES コーパスは，マルチモーダル共感的対話音声合成技術の研究に向けて新たに構築された日本語コーパスであり，模擬対話音声と感情的読み上げ音声を含みます．
プロの日本語話者 1 名が演技し，発話中の顔の動き（MediaPipe Face Mesh）と同期して収録されています．
すべての発話には知覚に基づく感情ラベルが付与されており，音声と顔特徴量は時間的に整合されています．
本コーパスを用いる場合，以下の論文を引用してください．

Jinsheng Chen*, Yuki Saito*, Dong Yang, Naoko Tanji, Hironori Doi, Yuma Shirahata, Byeongseon Park, Kentaro Tachibana, and Hiroshi Saruwatari, "CAVIARES: corpus for audio-visual expressive voice agent," Proc. ASRU, Dec. 2025. (*: equal contribution)

Summary:

The CAVIARES corpus is a newly developed Japanese multimodal corpus for research on empathetic dialogue speech synthesis.
It includes both acted dialogues and expressive reading speech, spoken by a single professional female Japanese speaker with facial expressions captured.
Each utterance is annotated with perceived emotion labels and temporally aligned with dense facial landmark sequences extracted using MediaPipe Face Mesh.
If you wish to use this information in your paper, please cite the following paper:

Jinsheng Chen*, Yuki Saito*, Dong Yang, Naoko Tanji, Hironori Doi, Yuma Shirahata, Byeongseon Park, Kentaro Tachibana, and Hiroshi Saruwatari, "CAVIARES: corpus for audio-visual expressive voice agent," Proc. ASRU, Dec. 2025. (*: equal contribution)

収録物 (Contents):

Subsets: Acted Dialogue (AD) and Expressive Reading (ER) / サブセット：模擬対話 (AD) と感情的読み上げ (ER)
Speaker: One professional female Japanese speaker / 話者：日本語母語の女性プロ話者 1 名
Duration: 9.5 hours total (AD: 8.3h, ER: 1.2h) / 総時間：9.5 時間（AD：8.3 時間，ER：1.2 時間）
Recording: Studio-recorded audio (48 kHz, 16 bit) and synchronized video (1920×1080, 60 fps) / 収録：スタジオ収録（音声：48 kHz, 16 bit；映像：1920×1080, 60 fps）
Emotion Labels: Neutral, Happy, Angry, Sad (annotated via crowdsourcing) / 感情ラベル：平静，喜び，怒り，悲しみ（クラウドソーシングによる知覚アノテーション）
Facial Features: 3D landmark sequences extracted using MediaPipe Face Mesh / 顔特徴量：MediaPipe Face Mesh による 3D ランドマーク列

更新情報 (Update information):

コーパス Version 1 を公開しました (2026/xx/xx) / Version 1 is available online (xx. xx, 2026)

主な開発者 (Main developers):

齋藤佑樹 (東京大学情報理工学系研究科) / Yuki Saito at The University of Tokyo, Japan.
陳晋升 (東京大学情報理工学系研究科) / Jinsheng Chen at The University of Tokyo, Japan.
楊棟 (東京大学情報理工学系研究科) / Dong Yang at The University of Tokyo, Japan.
丹治尚子 (東京大学情報理工学系研究科) / Naoko Tanji at The University of Tokyo, Japan.
土井啓成 (LINEヤフー株式会社) / Hironori Doi at LY Corp., Japan.
白旗悠真 (LINEヤフー株式会社) / Yuma Shirahata at LY Corp., Japan.
朴炳宣 (LINEヤフー株式会社) / Byeongseon Park at LY Corp., Japan.
橘健太郎 (LINEヤフー株式会社) / Kentaro Tachibana at LY Corp., Japan.
猿渡洋 (東京大学情報理工学系研究科) / Hiroshi Saruwatari at The University of Tokyo, Japan.

謝辞 (Acknowledgements):

本研究は，LINEヤフー株式会社と東京大学猿渡・齋藤研究室の共同研究プロジェクトとして実施した． / This research was conducted as a joint research project between LY Corp. and Saruwatari-Saito Lab. at The University of Tokyo, Japan.