彼
��
�態
�
��
彼
は
変態
です
$ su
パスワード:
# rpm -ivh AdbeRdr9.4-1_i486linux_jpn.rpm
準備中... ########################################### [100%]
1:AdobeReader_jpn ########################################### [100%]
[root@localhost Adobe]# cp /usr/lib/mozilla/plugins/nppdf.so /usr/lib/mozilla/plugins/cp_nppdf.so
[root@localhost Adobe]# cp Reader9/Browser/intellinux/nppdf.so /usr/lib/mozilla/plugins/
cp: `/usr/lib/mozilla/plugins/nppdf.so' を上書きしてもよろしいですか(yes/no)? yes
[root@localhost Adobe]#
use Text::MeCab;
use utf8;
binmode(STDOUT, ":raw :utf8");
binmode(STDIN, ":raw :utf8");
use Encode;
my $userdic ='../mecab_dic/wikipedia.dic, ../mecab_dic/hatena_keyword.dic'; # <- ユーザ辞書パス(複数OK)
my $m = Text::MeCab->new({ # <- ここで辞書のパスを記載
userdic => $userdic,
});
my $str = "千と千尋の神隠し";
my $n = $m->parse($str);
do{
printf("%s\t%s\t%s\n",
decode('utf8' ,$n->surface), # 表層
decode('utf8' ,$n->feature), # 現在の品詞
$n->cost, # その形態素までのコスト
);
}while ($n = $n->next)
千と千尋の神隠し 名詞,固有名詞,*,*,*,*,千と千尋の神隠し,*,*,wikipedia_word, -4034
BOS/EOS,*,*,*,*,*,*,*,* -4468
Use of uninitialized value in printf at /home/akito/workspace/長岡さん/source/OLD_source/test_mecab.pl line 14.
1)wikipediaのデータをダウンロード
2)ダウンロードしたデータからユーザ辞書のCSVファイルを作成
3)CSVファイルを辞書ファイル(.dic)へ変換
$ mecab
千と千尋の神隠し
千 名詞,数,*,*,*,*,千,セン,セン
と 助詞,格助詞,引用,*,*,*,と,ト,ト
千尋 名詞,一般,*,*,*,*,千尋,チヒロ,チヒロ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
神隠し 名詞,一般,*,*,*,*,神隠し,カミガクシ,カミガクシ
EOS
$ mecab
千と千尋の神隠し
千と千尋の神隠し 名詞,固有名詞,*,*,*,*,千と千尋の神隠し,*,*,wikipedia_word,
EOS
千ちゃんの幸せラジオドーム
千とせ
千と千尋
千と千尋の神隠し
千と千尋の神隠し_サウンドトラック
千なり
千のナイフ
工藤,1223,1223,6058,名詞,固有名詞,人名,名,*,*,くどう,クドウ,クドウ詳しくは公式サイトにのっていますのでそちらを。なお、自分お好きな情報をCSVが許す範囲で 追加できるとのことなので、先人に習って、最後にwikipedia_wordを追加します。 CSVへの変換はこちらのサイトのperlスクリプトを参考にさせて頂きました(少し改変しました。)。
#!/usr/bin/perl
use strict;
use warnings;
use utf8;
binmode(STDOUT, ":utf8");
use encoding 'utf8';
my $file1 = "jawiki-latest-all-titles-in-ns0";
my $file2 = "wikipedia.csv";
open(IN, "$file1");
open(OUT, ">$file2");
binmode OUT, ":utf8"; ## <- こっちが正しい
for(<IN>) {
chomp($_);
print $_."\n";
## いらない単語をとばす
next if $_ =~ /^\./;
next if $_ =~ /(曖昧さの回避)/;
next if $_ =~ /^[0-9]{1,100}$/;
next if $_ =~ /[0-9]{4}./;
if (length($_) > 3) {
print OUT "$_,0,0,".max(-36000,-400 * (length^1.5)).",名詞,固有名詞,*,*,*,*,$_,*,*,wikipedia_word,\n";
}
}
sub max {
my $comp = shift @_;
my $val = shift @_;
my $max = $comp;
if ( $comp <= $val ) {
$max = $val;
}
return int($max);
}
$ /usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic \
> -u wikipedia.dic -f utf8 -t utf8 wikipedia.csv
reading wikipedia.csv ... 970539
emitting double-array: 100% |###########################################|
done!
userdic = /home/foo/bar/foo.dic
#!/usr/bin/perl
use strict;
use warnings;
use utf8;
use encoding 'utf8';
#my ($file1,$file2) = @ARGV;
my $in = "hatena.csv";
my $ou = "hatena_keyword2.csv";
open(IN, "$in");
open(OUT, ">$ou");
binmode OUT, ":utf8";
for(<IN>) {
chomp($_);
######## for hatena <- ここを追加
$_ =~ s/(.*?)\t(.*?)/$2/;
my $yomi = $1;
$yomi = '*' if $yomi eq '';
print $_."\n";
next if $_ =~ /^\./;
next if $_ =~ /(曖昧さの回避)/;
next if $_ =~ /^[0-9]{1,100}$/;
next if $_ =~ /[0-9]{4}./;
if (length($_) > 1) {
# print OUT "$_,0,0,".max(-36000,-400 * (length^1.5)).",名詞,固有名詞,*,*,*,*,$_,*,*,wikipedia_word,\n";
print OUT "$_,0,0,".max(-36000,-400 * (length^1.5)).",名詞,固有名詞,key_word,key_word,*,*,$yomi,*,*,hatena_word,\n";
}
}
sub max {
my $comp = shift @_;
my $val = shift @_;
my $max = $comp;
if ( $comp <= $val ) {
$max = $val;
}
return int($max);
}
千と千尋の神隠し,0,0,-3600,名詞,固有名詞,key_word,key_word,*,*,せんとちひろのかみかくし,*,*,hatena_word,
Ctr + /
[guest@localhost ~]$ su
パスワード:
[root@localhost akito]# cpan
...
cpan[1]> install DBD::mysql
...
/usr/bin/make install -- OK
use DBI;
# データソース
$d = 'DBI:mysql:mysql';
# ユーザ名
$u = 'root';
# パスワード
$p = 'パスワード';
# データベースへ接続
$dbh = DBI->connect($d, $u, $p);
@row = $dbh->selectrow_array(
"SELECT User FROM user"
);
print "@row"."\n" if @row;
$dbh->disconnect;
root
[root@localhost ダウンロード]# rpm -ihv mecab-0.98-tritonn.1.0.12a.i386.rpm
準備中... ########################################### [100%]
パッケージ mecab-0.98-tritonn.1.0.12a.i386 は既にインストールされています。
[root@localhost ダウンロード]# rpm -ihv mecab-ipadic-2.7.0.20070801-tritonn.1.0.12a.i386.rpm
準備中... ########################################### [100%]
1:mecab-ipadic ########################################### [100%]
^C
^C
[root@localhost ダウンロード]#
[root@localhost ダウンロード]# rpm -ihv mecab-ipadic-2.7.0.20070801-tritonn.1.0.12a.i386.rpm
準備中... ########################################### [100%]
パッケージ mecab-ipadic-2.7.0.20070801-tritonn.1.0.12a.i386 は既にインストールされています。
[root@localhost ダウンロード]# rpm -ivh MySQL-shared-5.0.87-tritonn.1.0.12a.i386.rpm
[root@localhost ダウンロード]# rpm -ivh MySQL-client-5.0.87-tritonn.1.0.12a.i386.rpm
[root@localhost ダウンロード]# rpm -ivh MySQL-server-5.0.87-tritonn.1.0.12a.i386.rpm
[root@localhost ダウンロード]# rpm -ivh MySQL-devel-5.0.87-tritonn.1.0.12a.i386.rpm
[root@localhost ダウンロード]# /usr/bin/mysqladmin -u root password 'パスワード'
[root@localhost ダウンロード]# /usr/bin/mysqladmin -u root -h localhost.localdomain password 'パスワード'
/usr/bin/mysqladmin: connect to server at 'localhost.localdomain' failed
error: 'Access denied for user 'root'@'localhost' (using password: NO)'
[root@localhost ダウンロード]# /usr/bin/mysqladmin -u root -h localhost.localdomain password 'パスワード' -p
Enter password:
[root@localhost ダウンロード]# mysql -u root -p
Enter password:
Welcome to the MySQL monitor. Commands end with ; or \g.
Your MySQL connection id is 5
…
mysql> delete from mysql.user where user="";
…
Query OK, 2 rows affected (0.00 sec)
mysql> select user,host,password from mysql.user;
+------+-----------------------+-------------------------------------------+
| user | host | password |
+------+-----------------------+-------------------------------------------+
| root | localhost | |
| root | localhost.localdomain | |
| root | 127.0.0.1 | |
+------+-----------------------+-------------------------------------------+
3 rows in set (0.00 sec)
mecab 0.98.
mecab-ipadic-2.7.0-20070801
mecab-naist-jdic-0.6.3-20100801
tar zxf mecab-0.98.tar.gz
cd mecab-0.98
./configure --with-charset=utf8 \
make
su
make install
tar zxf mecab-ipadic-2.7.0-20070801.tar.gz
cd mecab-ipadic-2.7.0-20070801
./configure --with-charset=utf8
make
make install
現在でもよく使用されている形態素解析用辞書 IPADIC に対して ICOT 条項をクリアするとともに表記ゆれ情報、複合語情報を付与した辞書です。
tar zxf mecab-naist-jdic-0.6.3-20100801.tar.gz
cd mecab-naist-jdic-0.6.3-20100801
./configure --with-charset=utf8
make
make install
[guest@localhost /]$ mecab
今日は晴れの日いい天気
今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
晴れ 名詞,一般,*,*,*,*,晴れ,ハレ,ハレ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
日 名詞,非自立,副詞可能,*,*,*,日,ヒ,ヒ
いい 形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
天気 名詞,一般,*,*,*,*,天気,テンキ,テンキ
EOS
[guest@localhost /]$ mecab -d /usr/local/lib/mecab/dic/naist-jdic/
今日は晴れの日いい天気
今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー,,
は 助詞,係助詞,*,*,*,*,は,ハ,ワ,,
晴れ 名詞,一般,*,*,*,*,晴れ,ハレ,ハレ,,
の 助詞,連体化,*,*,*,*,の,ノ,ノ,,
日 名詞,非自立,副詞可能,*,*,*,日,ヒ,ヒ,,
いい 動詞,自立,*,*,五段・ワ行促音便,連用形,いう,イイ,イイ,いい/云い/言い/謂い,
天気 名詞,一般,*,*,*,*,天気,テンキ,テンキ,,
EOS
[root@localhost ダウンロード]# cat /usr/local/etc/mecabrc
;
; Configuration file of MeCab
;
; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $;
;
;dicdir = /usr/local/lib/mecab/dic/ipadic
dicdir = /usr/local/lib/mecab/dic/naist-jdic ←ここでっせ
; userdic = /home/foo/bar/user.dic
; output-format-type = wakati
; input-buffer-size = 8192
; node-format = %m\n
; bos-format = %S\n
; eos-format = EOS\n
読み込み中
クリックでキャンセルします
画像が存在しません