Mecab : 形態素解析ツール

Last Change: 10-Dec-2014.
author : qh73xe

導入方法

ubuntu, debian

$ sudo apt-get -y install mecab libmecab-dev mecab-ipadic-utf8 mecab-jumandic-utf8

OpenSUSE

opensuse の場合,ソースからビルドするのが楽ですね.

まずは以下の手順で mecab を入手

  • 公式サイト から ソースファイルを入手
    • 適宜最新版を導入します
  • ./configure && make

  • sudo make install
    • libmecab.so.2 周りでエラーが起きる場合, ldconfig

続いて辞書を取得. 辞書には一般によく使用される ipadic と unidic を入れます.

  • 上記のサイトからそれぞれのソースファイルを取得する
    • unidic の場合,unidic-mecab-2.1.2_src.zip が楽だと思います.
  • ./configure && make

  • sudo make install
    • 私の環境では /usr/local/lib64/mecab/ に辞書が作成されました.
    • mecab 本体は /usr/local/lib/mecab/ なのでここに上の dic を移動します
  • デフォルトでは ipadic が使用されます.

注釈

mecab の辞書に関して

mecab 公式では ipadic を使えと書いてありますが, 個人的には unidic の方が好きです.

日本語の場合,一口に単語と言っても何処で区切るのかは厳密には決まっていません. 例えば,”日本国民” は一つの単語なのか,日本と国民なのか,日本という国の民なのかどれがいいでしょうか?

unidic では短単位という単位をシステマチックに認定し,上記のような問題に対して画一的な処理を施せます.

使用方法

$ echo 総務部長と万年課長は蕎麦屋とうどん屋をはしごした | mecab
総務    名詞,一般,*,*,*,*,総務,ソウム,ソーム
部長    名詞,一般,*,*,*,*,部長,ブチョウ,ブチョー
と      助詞,並立助詞,*,*,*,*,と,ト,ト
万      名詞,数,*,*,*,*,万,マン,マン
年      名詞,接尾,助数詞,*,*,*,年,ネン,ネン
課長    名詞,一般,*,*,*,*,課長,カチョウ,カチョー
は      助詞,係助詞,*,*,*,*,は,ハ,ワ
蕎麦    名詞,一般,*,*,*,*,蕎麦,ソバ,ソバ
屋      名詞,接尾,一般,*,*,*,屋,ヤ,ヤ
と      助詞,並立助詞,*,*,*,*,と,ト,ト
うどん  名詞,一般,*,*,*,*,うどん,ウドン,ウドン
屋      名詞,接尾,一般,*,*,*,屋,ヤ,ヤ
を      助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
はしご  名詞,一般,*,*,*,*,はしご,ハシゴ,ハシゴ
し      動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
た      助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
EOS

形態素辞書: UniDic

UniDicは日本語テキストに形態論情報を付与するための電子化辞書です。
UniDicは国立国語研究所のコーパスの構築に利用されています。
形態素解析辞書としてのUniDic(unidic-mecab)は形態素解析器MeCabの辞書として利用できます。

unidic を使用するためには, /usr/local/etc/mecabrc を変更する必要があります.

/usr/local/etc/mecabrc:

dicdir = /usr/local/lib/mecab/dic/unidic

mecab-python

mecab を python から利用するためのライブラリはありますが,これは pip からでは導入できません(やめて欲しい...)

  • 公式サイト からソースファイルをダウンロードします.

  • 解凍したディレクトリに移動します.

  • python setup.py build

  • sudo python setup.py install
    • sudo を使用すると mecab-config が見つからないとか言われるかもしれません

    • setup.py を編集し, mecab-config を絶対パスに変更します.
      • 私の場合,/usr/local/bin/mecab-config

茶豆

windows を使用している場合, 構文解析を GUI で行うツールとして 茶豆 というものがあります.

注釈

OS に関して

筆者はこのツールに関しては windows でしか試したことがありません.

導入

茶豆 は以下のページから UniDic を導入すると自動で入ってきます.