忍者ブログ

fukushimuのメモ帳

旧fukushimu'sページ。&旧理系大学院生の怠惰な日々。 fukushimuのメモ帳です。。
2017
07,22

«[PR]»

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

2011
01,15
perlでText::MeCabを使っていて、「なんか変だなー。みょ〜〜に、変だな〜・・」と稲川淳二ばりに思っていたら、作成したはずのmecabのユーザ辞書がText::MeCabに適応されていませんでした。人生オワタ、と嘆いていると、ザッツさんがCPANを見ればといってくれたので、見てみると、あーなるほど普通に書いてある。ということで、Text::MeCabに自分で作成したユーザ辞書を適応させる方法です(CPAN見れば書くまでもありませんが...)。

use Text::MeCab;
use utf8;
binmode(STDOUT, ":raw :utf8");
binmode(STDIN, ":raw :utf8");
use Encode;

my $userdic ='../mecab_dic/wikipedia.dic, ../mecab_dic/hatena_keyword.dic';  # <- ユーザ辞書パス(複数OK)
my $m = Text::MeCab->new({  # <- ここで辞書のパスを記載
    userdic    => $userdic,
});
my $str = "千と千尋の神隠し";
my $n = $m->parse($str);
do{
    printf("%s\t%s\t%s\n",
           decode('utf8' ,$n->surface),          # 表層
           decode('utf8' ,$n->feature),          # 現在の品詞
           $n->cost,           # その形態素までのコスト
           );
}while ($n = $n->next)


実行結果

千と千尋の神隠し    名詞,固有名詞,*,*,*,*,千と千尋の神隠し,*,*,wikipedia_word,    -4034
    BOS/EOS,*,*,*,*,*,*,*,*    -4468
Use of uninitialized value in printf at /home/akito/workspace/長岡さん/source/OLD_source/test_mecab.pl line 14.

できました。まあ、ちゃんとCPANなりなんなりを読めと言うことですね。


PR
Post your Comment
Name:
Title:
Mail:
URL:
Color:
Comment:
pass: emoji:Vodafone絵文字 i-mode絵文字 Ezweb絵文字

trackback
この記事のトラックバックURL:

プロフィール
HN:
fukushimu
性別:
男性
自己紹介:
熊本の某大学で情報処理の勉強をしてます。
カレンダー
06 2017/07 08
S M T W T F S
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31
ブログ内検索
つぶやきパーツテスト
カレンダー
最新コメント
[12/12 nvvkofkjdl]
[12/12 clmmxjdfzx]
[12/12 byuahjtfun]
[12/12 lyzithxbgh]
[12/11 xcjlfpuicg]
バーコード
最新TB
P R
カウンター
フリーエリア

Powered by Ninja.blog * TemplateDesign by TMP
忍者ブログ[PR]