2018年10月26日金曜日

anacondaでmatplot.pyplotが見つからない

pipで見ても入っているはずなのに呼び出せなかった。
Windows 10 にanacondaを入れた状態。

Anaconda Promptから

$ conda uninstall matplotlib
$ conda clean --all
$ pip install matplotlib

で解決。
https://github.com/ContinuumIO/anaconda-issues/issues/1672

2018年10月21日日曜日

macからwindowsへの乗り換え

macをやめて、windowsに乗り換えたので、その際にやったことの忘備録。
公式からダウンロード、インストールまでがスムーズなものについては言及しない。

  • Google 日本語入力の導入
  • Texの導入
    • 導入したものの死ぬほど使いにくいのでWordに乗り換える
  • Atomの導入
    • 改行コードをデフォルトでLFにするよう変更
以下は Windows Subsystem for Linux を入れれば、私が求めていた要件を満たしていた…
CUIで操作がしたかっただけのこと
  • Anacondaの導入
  • Git Bashの導入
    • git bash上でpythonコマンドを使う
      • pythonへのエイリアスを貼る
      • Git Bashから ~/.bash_profile に追記
      • alias python="winpty C:/Users/xxxxx/Anaconda3/python.exe"
        • パスはAnaconda Promptから where pythonで調べられる
      • source ~/.bash_profile で設定の読み込み
      • alias で確認
      • python と打てば実行される
      • pipも同様に設定
    • missing required dependencies 'numpy'

2018年10月1日月曜日

Atomで最初に設定しておくと便利なもの

新しいPCとかで新しくAtomをインストールしたときに最初にしておくと便利な設定

ホワイトスペースの可視化

メニューバーより Atom > Preferences
Settings のタブが開くので、Editorを選択
Show invisibles にチェックを入れる

2018年8月3日金曜日

制御コードの入力方法

ターミナル上でcurlのパラメータとして制御コードを入力しようとして、どう入力すればいいか忘れたのでメモ。
Macでは「Ctrl+v, Ctrl+a」で入力可能。
Ctrl+a の部分は好きな制御文字をどうぞ。

一覧
https://ja.wikipedia.org/wiki/制御文字

2018年7月25日水曜日

Daily UI #001

UIを勉強したいと思い立ち、友人の勧めで、Daily UIを始めてみる。
続くかわからないけど。

Sign Up

最初の課題は Sign Up。
どんなサービスかは自分で決めて良いらしい。
今回は自分の研究課題でもある「訳詞サポートシステム」をテーマとする。

システム要件

訳詞サポートシステムの要件を以下に示す。
  • 研究目的なので利用料金は無料
  • ユーザの実験への協力や簡単なアンケートのために、メールを配信することがある
  • ユーザの種別にどのような単語や音楽を好むかを知る必要がある
    • 性別
    • 年齢
    • 音楽歴
    • 英語の習熟度

アクティビティシナリオ

こちらを参考にアクティビティシナリオを書いてみる。

対象ペルソナ

自分のPCを持っており、譜面作成ソフト等で楽譜が作れる20代の男女

ペルソナの目標

英語歌詞の楽譜を日本語に翻訳するツールを利用するために、Webサービスに登録する

シーン

自分のお気に入りの英語の譜面を譜面作成ソフトで作成してみたので、これを日本語に翻訳できないかと思い立つ。そこで、訳詞をサポートしてくれるWebサービスに登録してみることにした。

アクティビティシナリオ

ユーザはPC上で英語の譜面を譜面作成ソフトで作成してみた。
これを、日本語の歌詞に翻訳して公開することはできないかと思ったので、訳詞を補助してくれるようなツールがあるかWebで検索してみた。
調べてみたところ、訳詞サポートシステムというWebサービスがあったので、登録してみることにした。
ユーザは、一般的なSNSは利用しているが、専門的なツールの登録をしたことはあまりない。
知名度の低いサービスに登録する際に、利用料金に制限があるのかもわからないし、メールアドレスを抜き取られて迷惑メールが来るようにならないかと不安もある。
けれども、訳詞サポートシステムにアクセスしてみたところ、特に致命的な情報の入力もなく、簡単にシステムが使えるようになった。
未知のサービスに対する不安は解消され、安心して訳詞サポートシステムを使えるようになった。

タスク

  1. 英語の譜面を作成する
  2. 訳詞サポートシステムについて検索する
  3. 訳詞サポートシステムにアクセスする
  4. サービスに登録する
  5. システムが利用できるようになる

ワイヤーフレーム

上記のシナリオから、以下の内容が担保されるべきだと考えた。
  • 登録する内容は少なめにする
    • 情報を多く入力させると、ユーザを不安にさせる、離脱が増える
  • 利用料金について明確にする
  • メルマガの配信等について明記する
  • ユーザの属性がわかれば匿名でも構わない
結果、以下のようなUIになった。

(左)PC、(右)スマホ

楽譜情報が無い場合、性別、年齢、音楽歴、英語の習熟度、全て必要の無いデータである。
そのため、sign upの画面では排除する。
そうすることで、メールアドレス登録のハードルを下げる。

アドレスの登録が終われば、パスワードがメールで送られてくる。
このとき、多くのサービスではパスワードの変更をメールに記載されているURLを踏んだ後に行う。
このときに、改めて性別等について入力してもらうこととした。

メルマガについては、本当は全員に送りたいが、アンケート等のデータについては、協力的な人の回答でないと困る場合がある。
なので、任意での登録とした。

2018年7月6日金曜日

LSTMで文章生成

私が愛してやまない Les Miserables のデータを元に文章生成してみた。
ファンティーヌが病院に入った場面から、サンプリス修道女がバルジャンを逃がすためにジャヴェールに嘘をつく場面の文章を利用。
mecabを使って分かち書きをし、ユニット層8の単語単位でepoch 1500で学習させた。
NLPが専門の友人に聞いたところ、ひらがな文字単位で学習させるのは一般的ではないとのこと。
webで検索すると、文字単位ひらがなで学習させてる記事を見かけるが、自然言語界隈ではやらないらしい。
やるとしたら、漢字まじりの文字単位とのこと。

結果

単語ごとに都度改行してるけど。
これらはデータの中にはない文章だった。
$ python lstm.py
既に
シャンマティユー
処刑
持っ

$ python lstm.py
だって
少し
変わら
ない

キャラクターの名前を先頭に与えてみる

$ python lstm.py
ジャヴェル
答え
なかっ
です

$ python lstm.py
ジャン・ヴァルジャン
はっきり
ある

$ python lstm.py
ファンティーヌ
誓って
申し

$ python lstm.py
コゼット
しっかり

楽しいいい
いい結果のみ抜粋してるので、もちろん、文章になってないような結果もある。

2018年4月25日水曜日

OpenNMTで英日翻訳できるようにする 2

この前のデータではうまくいかなかったので、他のデータで再挑戦。
コーパス:JESC 配布のもの
320万文あるし、データ量としては十二分のはず…。

preprocess.py

分割データを、とりあえずそのまま学習させる。
preprocess.pyの実行で、train.enが大きいためメモリが足りないと怒られるときがある。
-max_shard_size 1000000
を実行ファイル名の後ろにつける。
こんな感じ。
python preprocess.py -max_shard_size 1000000 -train_src data/train.en -train_tgt data/train.ja -valid_src data/val.en -valid_tgt data/val.ja -save_data data/en_ja

実行すると、dataフォルダの中に大量のtrain.ptが作成される。

train.py

うまくいくよう祈りながら実行
nohup python3 -u train.py -data data/en_ja -save_model en_ja-model > log.txt &

translate.py

学習が終わったら、動かしてみる。
前回accが29とかだったが、今回は40まで上がっている!!!

いい感じ
SENT 755: ('▁someone', '▁attacked', '▁me', '!')
PRED 755: ▁誰かが 私を 襲 った !
PRED SCORE: -9.0828

SENT 727: ('▁do', '▁it', '▁yourself', '▁from', '▁today', '▁on', '.')
PRED 727: ▁今日 から 自分で やれ
PRED SCORE: -6.6255

ちょっと惜しい
SENT 704: ('▁i', '▁can', '▁raise', '▁the', '▁child', '▁by', '▁myself', '▁without', '▁a', '▁male', '▁figure', '.')
PRED 704: ▁男 が いない と ▁一人で 育て られる
PRED SCORE: -8.9010

SENT 1374: ('▁because', '▁she', '▁can', "'", 't', '▁believe', '▁i', '▁can', "'", 't', '▁eat', '▁this', '▁pen', 'gu', 'in', '.')
PRED 1374: ▁この ペン ギ ンは 食べ られない から
PRED SCORE: -8.6270

ダメダメ
SENT 789: ('▁worst', '▁of', '▁all', ',', '▁he', '▁doesn', "'", 't', '▁have', '▁hair', '...')
PRED 789: ▁ヘ ヘ ヘ ヘ ...。
PRED SCORE: -10.1595

SENT 1569: ('▁hey', ',', '▁l', 'ud', 'l', 'ow', '!', '▁grab', '▁a', '▁light', '▁cann', 'on', '▁and', '▁get', '▁out', '▁here', '▁now', '!')
PRED 1569: ▁ライ ト キャ ノ ン !
PRED SCORE: -9.9253

特にデータのトリミング的なことはせずに、そのまま突っ込んだけど、いい感じに訳せてそうな気がする。

おまけ

遊戯王かな?
SENT 1405: ('▁i', '▁won', "'", 't', '▁let', '▁you', '!', '▁i', '▁activate', '▁a', '▁magic', '▁card', '!')
PRED 1405: ▁マジ ック カード 発動 !
PRED SCORE: -8.2402

SENT 1478: ('▁his', '▁per', 'man', 'ent', '▁trap', ',', '▁dep', 'th', '▁am', 'ul', 'et', '...')
PRED 1478: ▁永 続 トラ ップ ▁ディ ス ・ ア ミュ レット
PRED SCORE: -6.4971