妥協しないデータ分析のための 微積分+線形代数入門で微積分・線形代数の学び直しをしている。その中で学んだことを忘れないように自分の言葉でまとめたい。
ベクトルとは
ベクトル(Vector)とは、値が並んでいるものを指す。そして、その値の個数が次元と呼ばれる。
上記の場合、v1, v2, ..., vn ∈ R
のように書く。
ベクトルの内積
ベクトルの内積とは、2つの値の積の和を指す。
主に以下の2つの用途で用いられる。
類似度
ベクトルの内積は、2つのベクトルの類似度を計算できる。
BoW(Bag-of-Words)ベクトルとは、文章に含まれる単語の出現回数を数えてベクトルで表現したもの。これはベクトルの和として表現できる。
WORD | 明日 | は | 明日 | の | 風 | が | 吹く | BoWベクトル |
---|
明日 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 2 |
は | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 |
の | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 |
風 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 1 |
が | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 1 |
吹く | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 |
同じような文章の場合、同じ単語が頻出するため、ベクトルの内積が大きくなる。逆に、異なる単語が頻出する場合、ベクトルの内積が小さくなる。
和
たとえば、以下のテストの結果からテストの平均点を算出するために内積が使える。
生徒 | 国語 | 数学 | 理科 | 英語 | 化学 |
---|
Aさん | 80 | 70 | 90 | 60 | 50 |
Bさん | 70 | 80 | 60 | 90 | 80 |
Cさん | 90 | 60 | 70 | 80 | 90 |
Dさん | 60 | 90 | 80 | 70 | 60 |
また、文系・理系科目のそれぞれの平均点数を計算する場合は、重みをつけたベクトルを使って計算する。
幾何(長さと角度)
内積を用いることで、ベクトルの長さや角度を計算できる。
ベクトルvを基準にしたとき、ベクトルwの長さは|w|cosθ
で表される。そのため、v・w
は|v||w|cosθ
となる。
また、ベクトルvとwが同じ値の場合、cos0°=1となるため、v・v = |v|^2
となる。