Heroku

http://devcenter.heroku.com/articles/rubyに習って、HerokuのRubyを使ってみる。 おおーできた。SinatraとかCedarとかまるでわかってないけどー。

機械学習クラス8 ニューラルネットワーク:表現

http://www.ml-class.org/■非線形仮説 なぜ新しいアルゴリズムが必要か? ロジスティック回帰だと、特徴点の2乗、3乗を使おうとすると、特徴が多いと組み合わせが爆発する シグモイド関数 ■ニューロンと脳■モデル表現 I j段目のネットワークがsj個のユニッ…

AIクラス5 機械学習

http://www.ai-class.com/ ■ラプラススムージング 通常の確率だと、分子が0になる要素があると確率が全て0になってしまって、困る。 ラプラススムージング(k) は、分子の頻度に+k、分母にクラスの数を足す(例えばスパム判定なら、スパムかスパムでないか…

機械学習 6. ロジスティック回帰 (Logistic Regression)

http://www.ml-class.org/ こっちの問題は、ビデオを順に見ていけばまだついていける… ■分類 (Classification) Spam or Not Spam? 訓練データを y=0 または y=1 として学習する 線形回帰はうまく働かない ■仮説表現 (Hypothesis Representation) 0 hθ(x) = 1…

AI class 3. Probability in AI

https://www.ai-class.com/ ビデオ見ただけじゃわからんね…■独立 X⊥Y: P(X)P(Y) = P(X, Y) P(X2=H) = P(X2=H|X1=H) P(X1=H) + P(X2=H|X1=T) P(X1=T) ■Total Probability P(Y) = Σ P(Y|X=i) P(X=i) P(~X|Y) = 1 - P(X|Y) ■ P(X, Y) = P(X|Y) P(Y) ■ベイズルー…

DBクラス SQL

http://www.db-class.org/course/class/index ■ Introduction to SQL 読み:シークエル DDL: Data Definition Languate Create table..., Drop table... DML: Data Manipulation Language Select, Insert, Delete, Update Other command Select statement: S…

DBクラス 関係代数 (RELATIONAL ALGEBRA)

http://www.db-class.org/course/class/index 演算した結果も関係を返す、演算が閉じている Selection: σ(シグマ) 条件によりローを選択 Projection: π(パイ) 指定のカラムだけ取り出す Cross Product: × 全要素同士の掛け合わせ Natural Join: |>カラム…

機械学習コース 線形回帰 (Linear Regression)

http://www.ml-class.org/ ビデオが細切れなのと、わからなかったら見返せるのがいいね。すでにぶっ通しでやり続ける忍耐力がない…。■ Model Representation Hypothesis: ■ Cost Function コスト関数: 2乗誤差を最小にするθ0, θ1を求める■ Cost Function -…

スタンフォードの機械学習コース イントロ

Machine Learning | Coursera 公開されたので、ビデオを見てみる。■ What is Machine Learning? 2つの大きな分類:教師あり学習と教師なし 他に、強化学習とかレコメンデーションシステムとかあるけど、後で 機械学習を実際の問題への適用方法も教える ■ Su…

スタンフォードのDBコース イントロ

http://www.db-class.org/ Database Management System (DBMS) Massive, Persistent, Safe, Multi-user, Convenient, Efficient, Reliable Key Concept: Data model: records, xml, graph Schema and data: types and variables Data Definition Language (D…

「代替医療のトリック」読書感想文

代替医療のトリックposted at 11.09.27サイモン シン エツァート エルンスト 新潮社 売り上げランキング: 17711Amazon.co.jp で詳細を見る サイモン・シンの本が出ていたのをずっと見逃していた。 ホメオパシーとか鍼とかカイロプラクティックとかが実際に効…

秘書問題

秘書問題で、一番能力が高い候補者を獲得できる割合のグラフ n/e人を無条件で見送って、その後今まで以上の候補者を獲得するのがベストとのこと。最高の候補者を獲得できる確率も100/e%ってのが面白いね。一番能力が高い人じゃなくて、獲得できる能力の期待…

マルコフ作文2

「圧縮新聞」を作った - phaの日記には「4単語の連なりを1セットとして記録しています」と書いてある。前の状態にだけ依存するのがマルコフ連鎖っていうらしいので変わってしまうけど、その方がもっともらしい文章になりそうなのでやってみる。 前回のは品…

MeCabのインストール

形態素解析させてみたいということで、MacにMeCabをインストールしてみる。 Macへのmecabインストール - 技術メモ的なモノと気になるモノ インストール先のディレクトリは特に自分のホームにしなくてもデフォルトのまま通った。でスクリプトとのバインディン…

MeCabで分けた単語をカウント

MeCabをインストールしたのでなんかやってみよう。ひとまず、適当な文章の単語を数えてみる。 #!/usr/bin/ruby -Ku require 'MeCab' begin c = MeCab::Tagger.new(ARGV.join(" ")) count = Hash.new(0) while gets() n = c.parseToNode($_.chomp) while n if…

MeCabで分けた単語で作文

読み込んだ文章の単語と単語のつながりを確率で選んで作文させてみる。マルコフ連鎖っていうのかな? #!/usr/bin/ruby -Ku require 'MeCab' def create_chain(f) begin c = MeCab::Tagger.new(ARGV.join(" ")) chain = Hash.new {|h, k| h[k] = Hash.new(0)}…

PythonでバカでかいCSVを扱おうとするとエラーが出る

_csv.Error: field larger than field limit (131072)Huge CSV and XML Files in Pythonに従って、 csv.field_size_limit(1000000000) と指定すればOK。 わざわざそんな制限付ける意味がわからんわ。

Pythonでhttpサーバ

Pythonでhttpサーバを書きたくなったが、「1行で書ける」とかいうのが多くて、パスで分岐させる方法とかがググッてもずばりのものは出てこなかった。 from wsgiref import simple_server def dispatch(environ, start_response): path = environ['PATH_INFO…

2.2.4 幹と見出し語

IIR

Stemming and lemmatization 文法によって単語は異なる形式で使われる organize, organizes, organizing また似た単語ファミリーがある deocracy, democratic, democratization Stemming: ポーターのアルゴリズム "http://www.cs.odu.edu/~jbollen/IR04/read…

2.3 スキップポインタを使用した高速な位置リスト交差

IIR

Faster postings list intersection via skip pointers この章の残りで、効率を上げるための位置リストデータ構造の拡張について述べる 1.3節ではO(m+n)だったが、もっとよくできないか? ひとつの方法はスキップリストを使うこと リストを順に見ていくんじ…

2.2.3 正規化

IIR

Normalization (equivalence classing of terms) まったく同じじゃなくてもマッチして欲しい USAとU.S.A.とか トークンの正規化(Token normalization) もっとも標準的な方法は等価クラス(equivalence classes)で、集合の1つの名前にする 例えば、トークンant…

IPLから読み込まれるブートプログラムをnasmで

3章でIPLから読み込まれるブートプログラムをnasmでアセンブルするように変更する。というかhttp://hrb.osask.jp/wiki/index.php?tools/naskに書いてあった。 [INSTRSET "i486p"]の宣言を省く RESB x はnasmでは「0クリアするよ!」というワーニングが出るの…

C言語を使えるようにするには

本のように、gccで出力したアセンブリソースをnasmでアセンブルできるようにコンバートする gccでオブジェクトファイルを吐き出して、objdumpで情報を取り出す 取り出しても、まだリンク作業が残ってる。素直に本の内容に従っておくか、またはC言語をあきら…

自作OS入門をnasmで

自作OS入門を読み返してみてるけど、これ相当すごい本じゃないか?タイマ割り込みやタスクスイッチあたりが熱い。 でいろいろツールを揃えてくれているのはいいんだけど、それらのツールのことはよくわからないので、ブラックボックスをできるだけ少なくした…

「OS自作入門」入門

OS自作入門を改めてチャレンジ。この本の内容はいいんだけど、ビルドにいろんな独自ツールを使ってて、そのソースが公開されてない?のでどういうことが行われるのかわかりづらいところが難点。■1章 1.4Mバイトのバイナリファイルを作成して、フロッピーディ…

2.2.2 一般語(停止語)の削除

IIR

Dropping common terms: stop words 文書の選択に役立たない非常に一般的な単語がボキャブラリ全体から抽出される これらの単語は停止語(stop words)と呼ばれる 停止語を決定する一般的な戦略は収集頻度(collection frequency)の類(文書コレクション中に各…

ダイヤの確率

28 マコちゃん(東京都) :2011/01/29(土) 17:50:45.75 id:TyZHhS2R0 ここで問題ジョーカーを除いたトランプ52枚の中から1枚のカードを抜き出し、 表を見ないで箱の中にしまった。 そして、残りのカードをよく切ってから3枚抜き出したところ、 3枚ともダ…

2.2 語句のボキャブラリを決定する

IIR

Determining the vocabulary of terms

2.2.1 トークン化

IIR

Tokenization 文字シーケンスが与えられ、文書ユニットが定義されたら、トークン化はそれをトークンというピースに切り分ける処理で、同時に句読点などの文字を捨てる 型とトークンの区別は重要 トークン(token)はある文章中の文字シーケンスの実体で、処理…

2.1.2 文書ユニットの選択

IIR

Choosing a document unit 次のフェーズはインデックスする文書ユニット(document unit)を決定すること 例えば伝統的なメールファイルはメール列を1つのファイルに格納しているが、別々の文書として扱いたいだろう メールに添付された文書やzipファイルなど …