Mecab : 形態素解析ツール¶
Last Change: 10-Dec-2014.
author : qh73xe
導入方法¶
ubuntu, debian¶
$ sudo apt-get -y install mecab libmecab-dev mecab-ipadic-utf8 mecab-jumandic-utf8
OpenSUSE¶
opensuse の場合,ソースからビルドするのが楽ですね.
まずは以下の手順で mecab を入手
- 公式サイト から ソースファイルを入手
- 適宜最新版を導入します
./configure && make
- sudo make install
libmecab.so.2
周りでエラーが起きる場合, ldconfig
続いて辞書を取得. 辞書には一般によく使用される ipadic と unidic を入れます.
- 上記のサイトからそれぞれのソースファイルを取得する
- unidic の場合,
unidic-mecab-2.1.2_src.zip
が楽だと思います.
- unidic の場合,
./configure && make
- sudo make install
- 私の環境では
/usr/local/lib64/mecab/
に辞書が作成されました. - mecab 本体は
/usr/local/lib/mecab/
なのでここに上のdic
を移動します
- 私の環境では
- デフォルトでは ipadic が使用されます.
注釈
mecab の辞書に関して
mecab 公式では ipadic を使えと書いてありますが, 個人的には unidic の方が好きです.
日本語の場合,一口に単語と言っても何処で区切るのかは厳密には決まっていません. 例えば,”日本国民” は一つの単語なのか,日本と国民なのか,日本という国の民なのかどれがいいでしょうか?
unidic では短単位という単位をシステマチックに認定し,上記のような問題に対して画一的な処理を施せます.
使用方法¶
$ echo 総務部長と万年課長は蕎麦屋とうどん屋をはしごした | mecab
総務 名詞,一般,*,*,*,*,総務,ソウム,ソーム
部長 名詞,一般,*,*,*,*,部長,ブチョウ,ブチョー
と 助詞,並立助詞,*,*,*,*,と,ト,ト
万 名詞,数,*,*,*,*,万,マン,マン
年 名詞,接尾,助数詞,*,*,*,年,ネン,ネン
課長 名詞,一般,*,*,*,*,課長,カチョウ,カチョー
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
蕎麦 名詞,一般,*,*,*,*,蕎麦,ソバ,ソバ
屋 名詞,接尾,一般,*,*,*,屋,ヤ,ヤ
と 助詞,並立助詞,*,*,*,*,と,ト,ト
うどん 名詞,一般,*,*,*,*,うどん,ウドン,ウドン
屋 名詞,接尾,一般,*,*,*,屋,ヤ,ヤ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
はしご 名詞,一般,*,*,*,*,はしご,ハシゴ,ハシゴ
し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
EOS
形態素辞書: UniDic¶
UniDicは日本語テキストに形態論情報を付与するための電子化辞書です。
UniDicは国立国語研究所のコーパスの構築に利用されています。
形態素解析辞書としてのUniDic(unidic-mecab)は形態素解析器MeCabの辞書として利用できます。
unidic を使用するためには, /usr/local/etc/mecabrc
を変更する必要があります.
/usr/local/etc/mecabrc
:
dicdir = /usr/local/lib/mecab/dic/unidic
mecab-python¶
mecab を python から利用するためのライブラリはありますが,これは pip からでは導入できません(やめて欲しい...)
公式サイト からソースファイルをダウンロードします.
解凍したディレクトリに移動します.
python setup.py build
- sudo python setup.py install
sudo を使用すると mecab-config が見つからないとか言われるかもしれません
setup.py
を編集し, mecab-config を絶対パスに変更します.- 私の場合,
/usr/local/bin/mecab-config
- 私の場合,
茶豆¶
windows を使用している場合, 構文解析を GUI で行うツールとして 茶豆 というものがあります.
注釈
OS に関して
筆者はこのツールに関しては windows でしか試したことがありません.