Jdi na navigaci předmětu

13: Julia ve strojovém učení

Tento notebook je výukovým materiálem v předmětu BI-JUL.21 vyučovaném v zimním semestru akademického roku 2024/2025 Tomášem Kalvodou. Tvorba těchto materiálů byla podpořena NVS FIT.

Hlavní stránkou předmětu, kde jsou i další notebooky a zajímavé informace, je jeho Course Pages stránka.

versioninfo()

Julia Version 1.11.2
Commit 5e9a32e7af2 (2024-12-01 20:02 UTC)
Build Info:
  Official https://julialang.org/ release
Platform Info:
  OS: Linux (x86_64-linux-gnu)
  CPU: 8 × Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz
  WORD_SIZE: 64
  LLVM: libLLVM-16.0.6 (ORCJIT, skylake)
Threads: 1 default, 0 interactive, 1 GC (on 8 virtual cores)

1. Úvod

Julia poměrně přirozeně nachází uplatnění i v různých partiích strojového učení (ML, Machine Learning). V této oblasti existuje celá řada nástrojů, často vyuužívajících Python. Existuje celá řada Julia balíčků poskytujících rozhraní k známým nástrojům, např:

Vedle toho vznikají i nástroje založené přímo na Julia, např.:

V tomto Vánočním notebooku se podíváme na první dva balíčky. Tématicky půjde o rozhodovací stromy a neuronové sítě. Pole strojového učení je ovšem velmi široké, řada z vás ještě tuto látku neprobírala, takže tento notebook je spíše reklama na to co vás čeká a jak v této oblasti může Julia pomoci.

2. Rozhodovací stromy

Klasickou ukázkou použití rozhodovacích stromů je klasifikace kosatců na základě velikosti okvětních lístků uložených v tzv. Iris datasetu.

Této úlohy využijeme k demonstraci balíčku DecisionTree.jl, nezapomeňte tento balíček nainstalovat ] add DecisionTree.

using DecisionTree

Data jsou distribuována přímo v balíčku.

features, labels = load_data("iris")

(Any[5.1 3.5 1.4 0.2; 4.9 3.0 1.4 0.2; … ; 6.2 3.4 5.4 2.3; 5.9 3.0 5.1 1.8], Any["Iris-setosa", "Iris-setosa", "Iris-setosa", "Iris-setosa", "Iris-setosa", "Iris-setosa", "Iris-setosa", "Iris-setosa", "Iris-setosa", "Iris-setosa"  …  "Iris-virginica", "Iris-virginica", "Iris-virginica", "Iris-virginica", "Iris-virginica", "Iris-virginica", "Iris-virginica", "Iris-virginica", "Iris-virginica", "Iris-virginica"])

Příznaky jsou čtyři délky různých okvětních lístků, co řádek, to jedna květina:

features = float.(features)

150×4 Matrix{Float64}:
 5.1  3.5  1.4  0.2
 4.9  3.0  1.4  0.2
 4.7  3.2  1.3  0.2
 4.6  3.1  1.5  0.2
 5.0  3.6  1.4  0.2
 5.4  3.9  1.7  0.4
 4.6  3.4  1.4  0.3
 5.0  3.4  1.5  0.2
 4.4  2.9  1.4  0.2
 4.9  3.1  1.5  0.1
 5.4  3.7  1.5  0.2
 4.8  3.4  1.6  0.2
 4.8  3.0  1.4  0.1
 ⋮              
 6.0  3.0  4.8  1.8
 6.9  3.1  5.4  2.1
 6.7  3.1  5.6  2.4
 6.9  3.1  5.1  2.3
 5.8  2.7  5.1  1.9
 6.8  3.2  5.9  2.3
 6.7  3.3  5.7  2.5
 6.7  3.0  5.2  2.3
 6.3  2.5  5.0  1.9
 6.5  3.0  5.2  2.0
 6.2  3.4  5.4  2.3
 5.9  3.0  5.1  1.8

A dále máme k dispozici informaci o jaké kosatce v těchto případech šlo:

labels = string.(labels)

150-element Vector{String}:
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 ⋮
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"

Celkem jsou v datasetu rozlišovány tři druhy kosatců:

unique(labels)

3-element Vector{String}:
 "Iris-setosa"
 "Iris-versicolor"
 "Iris-virginica"

Vytvoříme a natrénujeme model:

model = build_tree(labels, features)

Decision Tree
Leaves: 9
Depth:  5

print_tree(model)

Feature 4 < 0.8 ?
├─ Iris-setosa : 50/50
└─ Feature 4 < 1.75 ?
    ├─ Feature 3 < 4.95 ?
        ├─ Feature 4 < 1.65 ?
            ├─ Iris-versicolor : 47/47
            └─ Iris-virginica : 1/1
        └─ Feature 4 < 1.55 ?
            ├─ Iris-virginica : 3/3
            └─ Feature 3 < 5.45 ?
                ├─ Iris-versicolor : 2/2
                └─ Iris-virginica : 1/1
    └─ Feature 3 < 4.85 ?
        ├─ Feature 2 < 3.1 ?
            ├─ Iris-virginica : 2/2
            └─ Iris-versicolor : 1/1
        └─ Iris-virginica : 43/43

Prořežeme strom:

model = prune_tree(model, 0.9)

Decision Tree
Leaves: 8
Depth:  5

Rozhodovací strom si můžeme přehledně zobrazit:

print_tree(model)

Feature 4 < 0.8 ?
├─ Iris-setosa : 50/50
└─ Feature 4 < 1.75 ?
    ├─ Feature 3 < 4.95 ?
        ├─ Iris-versicolor : 47/48
        └─ Feature 4 < 1.55 ?
            ├─ Iris-virginica : 3/3
            └─ Feature 3 < 5.45 ?
                ├─ Iris-versicolor : 2/2
                └─ Iris-virginica : 1/1
    └─ Feature 3 < 4.85 ?
        ├─ Feature 2 < 3.1 ?
            ├─ Iris-virginica : 2/2
            └─ Iris-versicolor : 1/1
        └─ Iris-virginica : 43/43

A učinit pomocí něho klasifikaci:

apply_tree(model, [5.9, 3.0, 5.1, 1.9])

"Iris-virginica"

Pustěme ho na všech 150 záznamů v databázi:

preds = apply_tree(model, features)

150-element Vector{String}:
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 "Iris-setosa"
 ⋮
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"
 "Iris-virginica"

Jak přesné jsou naše předpovědi? K vyjádření kolikrát se náš klasifikátor "trefil" do správné třídy můžeme použít confusion matrix:

DecisionTree.confusion_matrix(labels, preds)

3×3 Matrix{Int64}:
 50   0   0
  0  50   0
  0   1  49

Classes:  ["Iris-setosa", "Iris-versicolor", "Iris-virginica"]
Matrix:   
Accuracy: 0.9933333333333333
Kappa:    0.9899999999999998

Vidíme, že jednu květinu z použitých dat klasifikuje špatně.

Můžeme získat i informaci o tom, jak je naše předpověď pravděpodobná. Následující příznaky jsou opět přímo z datasetu, takže výsledná kategorie má pravděpodobnost 1.

apply_tree_proba(model, [5.9, 3.0, 5.1, 1.9], ["Iris-setosa", "Iris-versicolor", "Iris-virginica"])

3-element Vector{Float64}:
 0.0
 0.0
 1.0

V následujícím příkladě se klasifikátor významněji přiklání k jedné z kategorií.

apply_tree_proba(model, [5.7, 3.2, 4.9, 1.7], ["Iris-setosa", "Iris-versicolor", "Iris-virginica"])

3-element Vector{Float64}:
 0.0
 0.9791666666666666
 0.020833333333333332

Pro další ukázky viz stránky použitého balíčku.

3. Neuronové sítě

Pro práci s neuronovými sítěmi se jako velmi atraktivní jeví balíček Flux.jl, tj. ] add Flux.

using Flux

Ukažme si (například pro studenty, kteří tuto látku ještě nestudovali) základní princip učení neuronové sítě.

Mějme závislost jedné reální proměnné $y$ na jedné reálné proměnné $x$ danou explicitním předpisem:

actual(x) = 4x + 2

actual (generic function with 1 method)

Příprava trénovacích a testovacích dat sestávajících vždy z několika málo hodnot.

x_train, x_test = hcat(0:5...), hcat(6:10...)

([0 1 … 4 5], [6 7 … 9 10])

A skutečné hodnoty na trénovacích i testovacích datech.

y_train, y_test = actual.(x_train), actual.(x_test)

([2 6 … 18 22], [26 30 … 38 42])

Sestavení modelu a předpovídání. Konkrétně budeme mít jeden neuron s jedním vstupem a jedním výstupem.

model = Dense(1, 1)

Dense(1 => 1)       # 2 parameters

V tomto případě jde o funkci $\sigma(w\cdot x + b)$ , kde $w$ je váha:

model.weight

1×1 Matrix{Float32}:
 -0.11200609

$b$ je bias:

model.bias

1-element Vector{Float32}:
 0.0

a $\sigma$ je aktivační funkce, zde identita,

model.σ

identity (generic function with 1 method)

Tento triviální model má tedy dva reálné parametry. Aktuálně dává model následující předpovědi (samozřejmě zcela mimo, zatím jsme ho nenatrénovali):

model(x_train)

1×6 Matrix{Float32}:
 0.0  -0.112006  -0.224012  -0.336018  -0.448024  -0.56003

Přesnost předpověďí našeho modelu budeme měřit pomocí (objektivní) loss funkce (MSE = mean square error):

loss(m, x, y) = Flux.mse(m(x), y)

loss (generic function with 2 methods)

Jde o průměrnou hodnota kvadratických odchylek, tedy pro $x,y\in\mathbb{R}^n$ o výraz

$\frac{1}{n} \sum_{j=1}^n (x_j - y_j)^2.$

"Chyba" je tedy zatím dost velká (z nějakého důvodu zde máme 32 bitový float):

loss(model, x_train, y_train)

200.11552f0

Pro kontrolu:

sum((model(x_train) - y_train) .* (model(x_train) - y_train)) / length(x_train)

200.11552f0

K učení použijeme jednoduchý gradientní sestup. V tento moment opět neděláme nic jiného, než že řešíme optimalizační úlohu!

opt = Descent() # gradientní sestup

Descent(0.1f0)

Kompletní trénovací data:

data = [(x_train, y_train)]

1-element Vector{Tuple{Matrix{Int64}, Matrix{Int64}}}:
 ([0 1 … 4 5], [2 6 … 18 22])

Parametry modelu (váha a bias):

parameters = Flux.trainable(model)

(weight = Float32[-0.11200609;;], bias = Float32[0.0], σ = identity)

Jedna epocha (jedna iterace/jeden krok optimalizačního algoritmu) proběhne zavoláním metody train!:

Flux.Optimise.train!(loss, model, data, opt) # `model` je "schován" v loss funkci!

Loss funkce se zmenšila!

loss(model, x_train, y_train)

189.92554f0

Samozřejmě se změnily i naše dva parametry:

parameters

Params([Float32[7.860397;;], Float32[2.116238]])

Toto byla jen jedna epocha, data jsme prošli jen jednou. Projděme více epoch.

for epoch in 1:100
    Flux.Optimise.train!(loss, model, data, opt)
end

Zřejmě se blížíme k minimu (a nebo? :-)).

loss(model, x_train, y_train)

0.005551168f0

parameters

(weight = Float32[4.022826;;], bias = Float32[2.0064285], σ = identity)

V těchto parametrech již jistě rozeznáváte původní hodnoty, z kterých jsme data nagenerovali. Případně učení můžeme prohnat ještě pár dalšími epochami.

Jaké předpovědi dává náš model na testovacích datech?

model(x_test)

1×5 Matrix{Float32}:
 26.1434  30.1662  34.189  38.2119  42.2347

"Správně" bychom očekávali:

y_test

1×5 Matrix{Int64}:
 26  30  34  38  42

V podstatě jsme samozřejmě neudělali nic jiného, než lineární regresi (proložení dat přímkou).

Rozpoznávání cifer

Ukažme si komplikovanější příklad perceptronu z dokumentace Flux (aktuálně 404), resp. tohoto blogu.

using Flux, MLUtils
using MLDatasets
using Statistics

import Flux: onehotbatch, onecold, crossentropy, unsqueeze # @epochs zrušen

Nejprve získejme data, v tomto případě MNIST (Modified National Institute of Standards and Technology database) obsahující obrázky arabských číslic nula až devět jakožto 28x28 pixelové obrázky. Data jsou i anotována "správnou" hodnotou.

Při prvním spuštění následujícího příkazu musíte potvrdit stažení souborů.

# trénovací data
x_train, y_train = MLDatasets.MNIST(split=:train)[:];

V poli x_train jsou uloženy obrázky, konkrétně celkem $60\,000$ obrázků.

typeof(x_train), size(x_train)

(Array{Float32, 3}, (28, 28, 60000))

Pojďme se alespoň na pár podívat (rotace/zrcadlení?).

x_train[:, :, 1]

28×28 Matrix{Float32}:
 0.0  0.0  0.0  0.0  0.0  0.0        …  0.0       0.0        0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.0           0.0       0.0        0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.0           0.0       0.0        0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.0           0.0       0.0        0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.0           0.215686  0.533333   0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.0        …  0.67451   0.992157   0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.0           0.886275  0.992157   0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.0           0.992157  0.992157   0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.0           0.992157  0.831373   0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.0           0.992157  0.529412   0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.0        …  0.992157  0.517647   0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.0           0.956863  0.0627451  0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.0117647     0.521569  0.0        0.0  0.0  0.0
 ⋮                        ⋮          ⋱                       ⋮         
 0.0  0.0  0.0  0.0  0.0  0.494118      0.0       0.0        0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.533333      0.0       0.0        0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.686275      0.0       0.0        0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.101961      0.0       0.0        0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.65098    …  0.0       0.0        0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  1.0           0.0       0.0        0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.968627      0.0       0.0        0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.498039      0.0       0.0        0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.0           0.0       0.0        0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.0        …  0.0       0.0        0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.0           0.0       0.0        0.0  0.0  0.0
 0.0  0.0  0.0  0.0  0.0  0.0           0.0       0.0        0.0  0.0  0.0

A skutečně graficky:

using Images

display(Gray.(x_train[:, :, 1]))
display(Gray.(x_train[:, :, 2]))
display(Gray.(x_train[:, :, 3]))
display(Gray.(x_train[:, :, 4]))
display(Gray.(x_train[:, :, 5]))

V poli y_train jsou uložené cifry, které obrázky reprezentují.

typeof(y_train), size(y_train)

(Vector{Int64}, (60000,))

Prvních pět obrázků zobrazených výše by tedy mělo reprezentovat následující cifry:

y_train[1:5]

5-element Vector{Bool}:
 0
 0
 0
 0
 0

Dále si připravíme testovací data.

# testovací (validační) data
x_valid, y_valid = MLDatasets.MNIST(split=:test)[:];

size(x_valid, 3)

Aktuálně jsou data čistě ve formě matic, Flux očekává obrázková data včetně barevného kanálu (u nás je jen jeden - odstíny šedi). Musíme tak data obohatit o ještě jeden rozměr ("délky"). K tomu máme k dispozici metodu unsqueeze:

x_train = unsqueeze(x_train, 3)
x_valid = unsqueeze(x_valid, 3);

typeof(x_train), size(x_train)

(Array{Float32, 4}, (28, 28, 1, 60000))

Podobně jako dříve v Sudoku budeme místo cifer pracovat s desetisložkovým vektorem tvořeným samými nulami a jednou jedničkou na místě odpovídajícím cifře. K jednoduchému přepočítání našich dat k tomu slouží metoda onehotbatch. Výsledkem bude řídká matice, s kterou se dá dále efektivně pracovat.

y_train = onehotbatch(y_train, 0:9)
y_valid = onehotbatch(y_valid, 0:9)

10×10000 OneHotMatrix(::Vector{UInt32}) with eltype Bool:
 ⋅  ⋅  ⋅  1  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  1  ⋅  ⋅  …  ⋅  ⋅  ⋅  ⋅  ⋅  1  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅
 ⋅  ⋅  1  ⋅  ⋅  1  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅     ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  1  ⋅  ⋅  ⋅  ⋅  ⋅
 ⋅  1  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅     ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  1  ⋅  ⋅  ⋅  ⋅
 ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅     ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  1  ⋅  ⋅  ⋅
 ⋅  ⋅  ⋅  ⋅  1  ⋅  1  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅     ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  1  ⋅  ⋅
 ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  1  ⋅  ⋅  ⋅  ⋅  …  1  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  1  ⋅
 ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  1  ⋅     ⋅  1  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  1
 1  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅     ⋅  ⋅  1  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅
 ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅     ⋅  ⋅  ⋅  1  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅
 ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  1  ⋅  1  ⋅  ⋅  1     ⋅  ⋅  ⋅  ⋅  1  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅  ⋅

Nyní vše spojíme do jednoho datasetu reprezentujícího trénovací data:

train_data = MLUtils.DataLoader((x_train, y_train), batchsize=128);

Nyní sestavíme náš model. Zvolíme osm vrstev, v tento okamžik zde nebudeme zabýhat do detailu.

model = Chain(
    # 28x28 => 14x14
    Conv((5, 5), 1=>8, pad=2, stride=2, relu),
    # 14x14 => 7x7
    Conv((3, 3), 8=>16, pad=1, stride=2, relu),
    # 7x7 => 4x4
    Conv((3, 3), 16=>32, pad=1, stride=2, relu),
    # 4x4 => 2x2
    Conv((3, 3), 32=>32, pad=1, stride=2, relu),
    
    GlobalMeanPool(),
    Flux.flatten,
    
    Dense(32, 10),
    softmax
)

Chain(
  Conv((5, 5), 1 => 8, relu, pad=2, stride=2),  # 208 parameters
  Conv((3, 3), 8 => 16, relu, pad=1, stride=2),  # 1_168 parameters
  Conv((3, 3), 16 => 32, relu, pad=1, stride=2),  # 4_640 parameters
  Conv((3, 3), 32 => 32, relu, pad=1, stride=2),  # 9_248 parameters
  GlobalMeanPool(),
  Flux.flatten,
  Dense(32 => 10),                      # 330 parameters
  NNlib.softmax,
)                   # Total: 10 arrays, 15_594 parameters, 61.766 KiB.

Model jsme ještě nevytrénovali, ale i tak můžeme zkusit, jestli někde není chyba:

# Getting predictions
z = model(x_train)

10×60000 Matrix{Float32}:
 0.0990317  0.0981342  0.0992241  …  0.0990981  0.0987789  0.0996901
 0.0981202  0.0982903  0.0989465     0.0989589  0.0992954  0.0981659
 0.1008     0.10053    0.100957      0.100063   0.100295   0.0997904
 0.0999692  0.101453   0.100863      0.100301   0.100848   0.100818
 0.098748   0.0995819  0.100778      0.0994947  0.100544   0.099504
 0.101047   0.0994854  0.099951   …  0.0991463  0.0987719  0.100591
 0.102724   0.102579   0.101132      0.102574   0.101646   0.101628
 0.10182    0.10077    0.0994473     0.101309   0.0995834  0.0998025
 0.0978165  0.0990085  0.0980178     0.0991625  0.10025    0.0993708
 0.0999238  0.100168   0.100682      0.0998926  0.099987   0.100639

z[:, 1]

10-element Vector{Float32}:
 0.09903171
 0.098120235
 0.10079972
 0.099969156
 0.098747976
 0.10104691
 0.10272397
 0.10182011
 0.09781651
 0.099923775

# Decoding predictions
zi = onecold(z)
println("Prediction of first image: $(zi[1])")

Prediction of first image: 7

size(zi)

(60000,)

Pojďme "přesnost" měřit následovně (tj. 0 == nikdy jsme se netrefili, 1 == kompletní shoda):

accuracy(z, y) = mean(onecold(z) .== onecold(y))

accuracy (generic function with 1 method)

accuracy(ones(2, 5), ones(2, 5))

1.0

accuracy(ones(2, 5), vcat(zeros(5), ones(5)))

0.0

Aktuálně bychom měli mít velmi nízkou shodu, jak se snadno přesvědčíme:

accuracy(z, y_train)

0.06293333333333333

Nyní zbývá zadefinovat loss funkci a připravit se na učení.

loss(m, x, y) = Flux.crossentropy(m(x), y)
opt = Descent()
ps = Flux.trainables(model); # nejsou v zásadě potřeba

K učení lze použít makro @epochs.

number_epochs = 10

for epoch in 1:number_epochs
    @info "Epoch $epoch"
    Flux.Optimise.train!(loss, model, train_data, opt)
end

accuracy(model(x_train), y_train)

[ Info: Epoch 1
[ Info: Epoch 2
[ Info: Epoch 3
[ Info: Epoch 4
[ Info: Epoch 5
[ Info: Epoch 6
[ Info: Epoch 7
[ Info: Epoch 8
[ Info: Epoch 9
[ Info: Epoch 10

0.9801166666666666

onecold(model(x_train))[1:5]

5-element Vector{Int64}:
  6
  1
  5
  2
 10

y_train[1:5]

5-element Vector{Bool}:
 0
 0
 0
 0
 0

Jak náš model předpovídá a jak přesně?

onecold(model(x_valid))[1:5]

5-element Vector{Int64}:
 8
 3
 2
 1
 5

onecold(y_valid)[1:5]

5-element Vector{Int64}:
 8
 3
 2
 1
 5

accuracy(model(x_valid), y_valid)

0.9738

4. Uzavření semestru

Tímto se dostáváme na konec prvního běhu BI-JUL.21. Ve zbylém čase budeme na tomto Vánočním cvičení řešit případné dotazy a zajímavosti.

Nezapomeňte vyplnit anketu hodnocení výuky!

Reference

Vedle výše zmíněných balíčků a nástrojů zmíněných v úvodu můžete prohledat i kategorii Machine Learning v databázi balíčků.