日本語話し言葉コーパス: CSJ RDB

ツールに記述するのもおかしいかなと思いつつ,私が一番手軽に弄るデータ・セットについての使い方を記述します.

これは何

CSJとは国立国語研究所が作成をした日本語の話し言葉コーパスです. アノテーションの豊富さ,収録音声の質の良さはおそらく,日本語のコーパスの中でも随一でしょう.

で,CSJRDBとは,上記のコーパスの情報をリレーショナル・データベースで保存することによって, 検索,研究をしやすくするデータベースです.

コーパス情報をRDB化することによって,知りたいことはまず,実際のデータを探して見てから考えるという研究の型ができやすいですし, 一度誰かが行った解析を論理上はもうやらなくてよくなる(車輪の開発はしない)ことが可能です. ココらへんはコーパスを使う研究者の基本姿勢であるべきなのですが,現状,なかなか理想系には至っていないものなのかもしれません (あるコーパスを使えば,知りたいことを調べることができるのに何故か,新しいコーパスを作りたがる人が多いような気もしています). そういう状況をなくそうと考えると以下に大量のデータを手軽に解析できる(というかピックアップして持ってこれる)かが重要なキーになるかと 思います.

そういう意味でリレーショナル・データベースはコーパス研究にとって相性のよい技術なのでしょう. データベースの作成にはSQliteを使用しており,データベースの管理は割としやすいはずです.