形態素解析エンジンMeCabをインストールしてみる。

環境
[CentOS] 5.6 (32bit版カーネル)
1.インストール
# mecabのソースを取得
# wget http://mecab.googlecode.com/files/mecab-0.98.tar.gz
# tar xzf mecab-0.98.tar.gz 
# cd mecab-0.98
# cd src

# mecab.hを開いて点線で囲んだ部分を修正する。数字に付けられている()を削除する。
# vim mecab.h 
--------------------------------------
    #define MECAB_NOR_NODE  0
    #define MECAB_UNK_NODE  1
    #define MECAB_BOS_NODE  2
    #define MECAB_EOS_NODE  3
    #define MECAB_EON_NODE  4

    #define MECAB_USR_DIC   1
    #define MECAB_SYS_DIC   0
    #define MECAB_UNK_DIC   2
--------------------------------------

# cd ..

# ./configure --with-charset=utf-8
# make
# make install

# cd ..

# 辞書のソースを取得
# wget http://downloads.sourceforge.net/project/mecab/mecab-ipadic/2.7.0-20070801/mecab-ipadic-2.7.0-20070801.tar.gz
# tar zxvf mecab-ipadic-2.7.0-20070801.tar.gz
# cd mecab-ipadic-2.7.0-20070801

# char.def を開いて点線で囲んだ部分を修正する。オリジナルの部分をコメントアウトし、7行追加。
# vim char.def 
--------------------------------------
    # ASCII
     #0x0021..0x002F SYMBOL
     #0x0030..0x0039 NUMERIC
     #0x003A..0x0040 SYMBOL
     #0x0041..0x005A ALPHA
     #0x005B..0x0060 SYMBOL
     #0x0061..0x007A ALPHA
     #0x007B..0x007E SYMBOL
     0x0021..0x002F ALPHA
     0x0030..0x0039 ALPHA
     0x003A..0x0040 ALPHA
     0x0041..0x005A ALPHA
     0x005B..0x0060 ALPHA
     0x0061..0x007A ALPHA
     0x007B..0x007E ALPHA
--------------------------------------

./configure --with-charset=utf-8
make
make install
2.テスト
# 以下のようにmecabと打ってEnterキーを押すと待機状態になるので、次に解析したい文字列を入力する。
# mecab
# すもももももももものうち

すもももももももものうち
すもも  名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
うち    名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS

PHPから利用する方法はこちら

参照したページ