SRC4VC のプロジェクトページ (under construction)
ダウンロード:
SRC4VC_ver1.zip (ver. 1 w/ 3.4 GB)
概要:
SRC4VCは,日本語母語話者100名によるスマートフォン収録音声のコーパスです.
本コーパスは,「エンドユーザが所有する実デバイスで収録された音声を高品質に変換可能な音声変換技術」の実現を目指して構築されています.
テキストは既存のコーパスから借用し,音声はLancersによるクラウドソーシングで収集しました.
収録された音声データ(48000Hz/16bit wav)に加え,Miipher の非公式実装で復元した音声データ(22050Hz/16bit wav)を含んでいます.
研究目的であれば無償で利用可能ですが,再配布・公序良俗に反する利用などの行為はご遠慮ください.
論文などで利用される場合,下記の通りに引用していただければ幸いです.
-
齋藤 佑樹, 五十嵐 琢斗, 関 健太郎, 高道 慎之介, 山本龍一, 橘 健太郎, 猿渡 洋,
"SRC4VCデータセット:多話者音声変換モデルのベンチマークを目的とした実デバイス収録音声コーパス,"
電子情報通信学会 研究報告, 2024-02-SIP-SP-EA-SLP, 2024年2月.
収録物:
- wav & txt: スマートフォン収録音声 & テキスト
- wav-R: Miipher で復元した音声
- emo (for CALLS, JVNV, and STUDIES subsets): クラウドソーシングで収集した知覚感情ラベル
- speaker-wise recording quality scores: クラウドソーシングで収集した話者ごとの録音品質スコア (MOS)
- Sample 1 (SRC4VC001, MOS = 4.13):
- Sample 2 (SRC4VC042, MOS = 3.66):
- Sample 3 (SRC4VC099, MOS = 3.33):
- Sample 4 (SRC4VC068, MOS = 3.01):
- Sample 3 (SRC4VC064, MOS = 1.69):
デモ:
更新情報:
主な開発者:
-
-
五十嵐 琢斗 (東京大学 情報理工学系研究科)
-
-
-
-
橘 健太郎 (LINEヤフー株式会社)
-
謝辞: