忍者ブログ

fukushimuのメモ帳

旧fukushimu'sページ。&旧理系大学院生の怠惰な日々。 fukushimuのメモ帳です。。
2024
04,20

«[PR]»

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

2011
01,06

Vine5.1にMySQLとtoritonnをインストールするついでに、MeCabの新しいバージョンを再インストールしました。あと、ipadicの辞書に加えてnaist-jdicもいれてみました。

今回のインストール

mecab 0.98.
mecab-ipadic-2.7.0-20070801
mecab-naist-jdic-0.6.3-20100801


synapticからいれると古いバージョンが入るのですね。なのでsynapticから古いのをアンインストールして、MeCabのページから本体とipadicをダウンロードした後、インストール。


tar zxf mecab-0.98.tar.gz
cd mecab-0.98
./configure --with-charset=utf8 \
make
su
make install



tar zxf mecab-ipadic-2.7.0-20070801.tar.gz
cd mecab-ipadic-2.7.0-20070801
./configure --with-charset=utf8
make
make install


なぜかipadicのmakeが通らない。`allはmakeできないだとかなんとか。無視してmake install したらこっちは通りました。(これでいいのか汗?)

引き続きnaist-jdicをこちらからダウンロードしてインストール。naist-jdicはこちらの記事によると


現在でもよく使用されている形態素解析用辞書 IPADIC に対して ICOT 条項をクリアするとともに表記ゆれ情報、複合語情報を付与した辞書です。


とのことです。


tar zxf mecab-naist-jdic-0.6.3-20100801.tar.gz
cd mecab-naist-jdic-0.6.3-20100801
./configure --with-charset=utf8
make
make install


これでMeCabと辞書が入りました。早速つかってみます。辞書は-dオプションで指定できます。(まず最初にいれたからか)デフォルトのipadic

[guest@localhost /]$ mecab
今日は晴れの日いい天気
今日    名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
は    助詞,係助詞,*,*,*,*,は,ハ,ワ
晴れ    名詞,一般,*,*,*,*,晴れ,ハレ,ハレ
の    助詞,連体化,*,*,*,*,の,ノ,ノ
日    名詞,非自立,副詞可能,*,*,*,日,ヒ,ヒ
いい    形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
天気    名詞,一般,*,*,*,*,天気,テンキ,テンキ
EOS


つづいてnaist-jdic。引数は辞書ディレクトリのパスです。


[guest@localhost /]$ mecab -d /usr/local/lib/mecab/dic/naist-jdic/
今日は晴れの日いい天気
今日    名詞,副詞可能,*,*,*,*,今日,キョウ,キョー,,
は    助詞,係助詞,*,*,*,*,は,ハ,ワ,,
晴れ    名詞,一般,*,*,*,*,晴れ,ハレ,ハレ,,
の    助詞,連体化,*,*,*,*,の,ノ,ノ,,
日    名詞,非自立,副詞可能,*,*,*,日,ヒ,ヒ,,
いい    動詞,自立,*,*,五段・ワ行促音便,連用形,いう,イイ,イイ,いい/云い/言い/謂い,
天気    名詞,一般,*,*,*,*,天気,テンキ,テンキ,,
EOS



んー「いい天気」の「いい」が動詞になってる(汗
まあいいでしょう。デフォルトの辞書は/usr/local/etc/mecabrcのdicdirを書き換えることで変更できます。



[root@localhost ダウンロード]# cat /usr/local/etc/mecabrc
;
; Configuration file of MeCab
;
; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $;
;

;dicdir =  /usr/local/lib/mecab/dic/ipadic    
dicdir = /usr/local/lib/mecab/dic/naist-jdic   ←ここでっせ
; userdic = /home/foo/bar/user.dic

; output-format-type = wakati
; input-buffer-size = 8192

; node-format = %m\n
; bos-format = %S\n
; eos-format = EOS\n


以上です。


PR
Post your Comment
Name:
Title:
Mail:
URL:
Color:
Comment:
pass: emoji:Vodafone絵文字 i-mode絵文字 Ezweb絵文字

trackback
この記事のトラックバックURL:

プロフィール
HN:
fukushimu
性別:
男性
自己紹介:
熊本の某大学で情報処理の勉強をしてます。
カレンダー
03 2024/04 05
S M T W T F S
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
ブログ内検索
つぶやきパーツテスト
カレンダー
最新コメント
[12/12 nvvkofkjdl]
[12/12 clmmxjdfzx]
[12/12 byuahjtfun]
[12/12 lyzithxbgh]
[12/11 xcjlfpuicg]
バーコード
最新TB
P R
カウンター
フリーエリア

Powered by Ninja.blog * TemplateDesign by TMP
忍者ブログ[PR]