形態素解析エンジンMeCabをインストールしてみる。
環境
[CentOS] 5.6 (32bit版カーネル)
1.インストール
# mecabのソースを取得
# wget http://mecab.googlecode.com/files/mecab-0.98.tar.gz
# tar xzf mecab-0.98.tar.gz
# cd mecab-0.98
# cd src
# mecab.hを開いて点線で囲んだ部分を修正する。数字に付けられている()を削除する。
# vim mecab.h
--------------------------------------
#define MECAB_NOR_NODE 0
#define MECAB_UNK_NODE 1
#define MECAB_BOS_NODE 2
#define MECAB_EOS_NODE 3
#define MECAB_EON_NODE 4
#define MECAB_USR_DIC 1
#define MECAB_SYS_DIC 0
#define MECAB_UNK_DIC 2
--------------------------------------
# cd ..
# ./configure --with-charset=utf-8
# make
# make install
# cd ..
# 辞書のソースを取得
# wget http://downloads.sourceforge.net/project/mecab/mecab-ipadic/2.7.0-20070801/mecab-ipadic-2.7.0-20070801.tar.gz
# tar zxvf mecab-ipadic-2.7.0-20070801.tar.gz
# cd mecab-ipadic-2.7.0-20070801
# char.def を開いて点線で囲んだ部分を修正する。オリジナルの部分をコメントアウトし、7行追加。
# vim char.def
--------------------------------------
# ASCII
#0x0021..0x002F SYMBOL
#0x0030..0x0039 NUMERIC
#0x003A..0x0040 SYMBOL
#0x0041..0x005A ALPHA
#0x005B..0x0060 SYMBOL
#0x0061..0x007A ALPHA
#0x007B..0x007E SYMBOL
0x0021..0x002F ALPHA
0x0030..0x0039 ALPHA
0x003A..0x0040 ALPHA
0x0041..0x005A ALPHA
0x005B..0x0060 ALPHA
0x0061..0x007A ALPHA
0x007B..0x007E ALPHA
--------------------------------------
./configure --with-charset=utf-8
make
make install
2.テスト
# 以下のようにmecabと打ってEnterキーを押すと待機状態になるので、次に解析したい文字列を入力する。
# mecab
# すもももももももものうち
すもももももももものうち
すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS