12.4 Pravděpodobnost

Pravděpodobnost popisuje, jak moc můžeme očekávat, že nastane nějaká událost v situacích, ve kterých hraje roli náhoda a jejichž výsledek neumíme určit přesně. Například, že při hodu kostkou padne sudé číslo, že si z balíčku karet vytáhnu eso, že si alespoň dva lidé u jednoho stolu objednají stejnou pizzu, že mě u státnic bude zkoušet Tomáš Kalvoda,…

Pravděpodobnost nějaké události je číslo z intervalu $\langle 0, 1\rangle$, které vyjadřuje, jaká je šance, že (nebo jak často) daná událost nastane, přičemž $0$ znamená nikdy a $1$ znamená vždy. Zde budeme uvažovat pouze jednoduchý případ, kdy počet všech výsledků, které mohou v dané situaci nastat, je konečný a všechny jsou stejně možné. V takovém případě se pravděpodobnost nějaké události počítá jako poměr počtu příznivých výsledků, které zaručují danou událost, k počtu všech možných výsledků. Například, při hodu kostkou máme šest možných výsledků: padne $1, 2, 3, 4, 5, 6$. Událost, že padne číslo dělitelné třemi, nastane když padne $3$ nebo $6$. Její pravděpodobnost tedy je $\frac{2}{6}=\frac{1}{3}$.

12.4.1 Klasická pravděpodobnost

Diskusi z úvodu sekce si nyní formalizujeme. Označme $\Omega$ množinu všech základních navzájem různých případů, které mohou v určité situaci nastat, a předpokládejme, že $\Omega$ je konečná. Každý prvek množiny $\Omega$ se nazývá elementární jev. Libovolnou podmnožinu $A\subseteq \Omega$ nazýváme jev. Jev tedy představuje nějakou událost, která se skládá z některých elementárních jevů. Pravděpodobnost jevu $A$ značíme $P(A)$ a počítáme jako

\begin{equation*} P(A)=\frac{|A|}{|\Omega|}, \end{equation*}

kde $|A|$, resp. $|\Omega|$, je počet prvků množiny $A$, resp. $\Omega$. Jevu s pravděpodobností $0$ se říká jev nemožný a jevu s pravděpodobností $1$ se říká jev jistý. Podle definice jsou jevy podmnožinami množiny $\Omega$; můžeme na nich tedy provádět běžné množinové operace, přičemž výsledkem budou opět jevy. Doplňku množiny $A$ v množině $\Omega$, tedy $\bar{A}=\Omega\setminus A$, se říká jev opačný k jevu $A$. Představuje událost, kdy nenastane jev $A$. Platí pro něj identita

\begin{equation*} P(\bar{A})=1-P(A), \end{equation*}

kterou lze jednoduše ověřit využitím vztahu $|\Omega|=|\bar{A}|+|A|$. Průnik jevů $A, B\subseteq \Omega$, tedy $A\cap B\subseteq\Omega$, představuje událost, kdy nastanou jevy $A$ a $B$ současně. Jevy $A, B$ se nazývají nezávislé jevy, pokud platí

\begin{equation*} P(A\cap B)=P(A)\cdot P(B). \end{equation*}

Intuitivně to znamená, že pravděpodobnost jevu $A$ není ovlivněna tím, zda nastane jev $B$, a naopak. Sjednocení jevů $A, B\subseteq \Omega$, tedy $A\cup B\subseteq\Omega$, představuje událost, kdy nastane jev $A$ nebo jev $B$ nebo oba současně. Platí pro něj rovnost

\begin{equation*} P(A\cup B)=P(A)+P(B)-P(A\cap B). \end{equation*}

Speciálně, pokud jsou jevy $A$ a $B$ disjunktní, máme $P(A\cup B)=P(A)+P(B)$.

Z definice je zřejmé, že pro výpočet pravděpodobností jevů je klíčové správné určení počtu všech elementárních jevů a elementárních jevů splňujících nějakou speciální vlastnost. K tomu právě využijeme znalosti z kombinatoriky. Finální spočtení pravděpodobnosti je už pak pouze jednoduchým dělením.

Na závěr sekce si uvedeme příklad.

Příklad 12.7

V jisté zemi se každá registrační značka vozidla skládá z  $2$ velkých písmen anglické abecedy (A–Z) následovaných $4$ číslicemi (0–9). Písmena i číslice se mohou opakovat, všechny registrační značky jsou jedinečné, stejně pravděpodobné a přidělují se zcela náhodně.

  1. Jaká je pravděpodobnost, že u náhodně přidělené značky budou obě písmena a všechny číslice navzájem různé?

  2. Jaká je pravděpodobnost, že náhodně přidělená značka bude obsahovat alespoň dvě sudé číslice?

  3. Registrační značka vozu pana Nováka je BA $6017$. Jaká je pravděpodobnost, že registrační značka vozu jeho souseda, pana Vodičky, obsahuje stejné číslice v libovolném pořadí (např. PM $0761$, BA $1076$, nebo ER $6017$)?

Elementárními jevy v tomto příkladě budou všechny možné registrační značky, čili posloupnosti dvou písmen a čtyř číslic. Jedná se tedy o variace s opakováním. Vybíráme však z dvou různých množin (písmena a číslice), proto výběr děláme ve dvou fázích. Nejdřív vybereme posloupnost dvou písmen (variace $2$ z  $26$ s opakováním) a potom posloupnost čtyř číslic (variace $4$ z  $10$ s opakováním). Pro množinu $\Omega$ všech elementárních jevů bude tedy podle násobícího principu platit

\begin{equation*} |\Omega|=26^2\cdot 10^4=6\, 760\,000. \end{equation*}

Jev $A$, jehož pravděpodobnost nás zajímá, je podmnožina $\Omega$ obsahující všechny posloupnosti různých písmen a číslic. Tentokrát tedy půjde o variace bez opakování a platí

\begin{equation*} |A|=26\cdot 25\cdot 10\cdot 9\cdot 8\cdot 7=3\,276\,000 \end{equation*}

Závěrem, pravděpodobnost, že u náhodně přidělené značky budou obě písmena a všechny číslice navzájem různé, je

\begin{equation*} P(A)=\frac{|A|}{|\Omega|}=\frac{3\,276\,000}{6\, 760\,000}\doteq 0,485. \end{equation*}

Počet všech možných značek je opět

\begin{equation*} |\Omega|=26^2\cdot 10^4. \end{equation*}

Jev $A\subseteq\Omega$ nyní sestává z těch, které obsahují alespoň dvě sudé číslice. Rychlejší ale bude určit počet prvků v opačném jevu, $\bar{A}=\Omega\setminus A$, tedy počet značek, které neobsahují žádnou sudou číslici, nebo právě jednu. Značek bez sudých číslic je $26^2\cdot 5^4$ – variace s opakováním ze všech písmen a lichých číslic. Značek s právě jednou sudou číslicí je $26^2\cdot 4\cdot 5\cdot 5^3$ – vybereme $2$ písmena z  $26$ (variace s opakováním), poté vybereme $1$ pozici ze $4$ pro sudou číslici (kombinace), pak hodnotu této sudé číslice z  $5$, a nakonec hodnoty $3$ lichých číslic z  $5$ (variace s opakováním). Celkem

\begin{equation*} |\bar{A}|=26^2\cdot 5^4+26^2\cdot 4\cdot 5\cdot 5^3=26^2\cdot 5^4\cdot(1+4)=26^2\cdot 5^5. \end{equation*}

Pravděpodobnost, že náhodně přidělená značka bude obsahovat alespoň dvě sudé číslice tedy je

\begin{equation*} P(A)=1-P(\bar{A})=1-\frac{|\bar{A}|}{|\Omega|}=1-\frac{26^2\cdot 5^5}{26^2\cdot 10^4}=1-\frac{5}{2^4}\doteq 0,688. \end{equation*}

Elementárními jevy budou v tomto případě všechny značky, které může mít pan Vodička. Nezapomeňme, že registrační značky jsou unikátní, proto

\begin{equation*} |\Omega|=26^2\cdot 10^4 - 1=6\, 759\,999. \end{equation*}

Jev $A$ je množina všech značek, které obsahují číslice $0,1,6,7$ a neshodují se se značkou pana Nováka. Pro volbu písmen máme všechny možnosti, tedy $26^2$. Následující čtyřčíslí volíme ze všech permutací číslic $0,1,6,7$, tedy $4!=24$ možností. A na závěr odečteme jednu možnost, které odpovídá značka pana Nováka. Celkem

\begin{equation*} |A|=26^2\cdot 4! - 1=16\,223. \end{equation*}

Pravděpodobnost, že značka pana Vodičky obsahuje stejné číslice jako značka pana Nováka, je

\begin{equation*} P(A)=\frac{|A|}{|\Omega|}=\frac{16\,223}{6\, 759\,999}\doteq 0,0024. \end{equation*}

12.4.2 Aritmetický průměr, medián a modus

Připomeňme si tři základní ukazatele ze statistiky, které popisují „typickou“ nebo také „střední“ hodnotu datového souboru: aritmetický průměr, medián a modus. Tyto hodnoty se souhrnně označují jako míry polohy, nebo také míry centrální tendence. Každá z nich jiným způsobem vyjadřuje, kolem jaké hodnoty se jednotlivá data soustřeďují, a proto se liší i ve způsobu svého využití.

Aritmetický průměr je součet všech hodnot v souboru dělený jejich počtem. Tedy, pokud $n\in\N$ a $x_1,x_2,\ldots,x_n\in\R$ je nějaký soubor (číselných) dat, potom aritmetický průměr $\bar{x}$ těchto dat se počítá vzorcem

\begin{equation*} \bar{x}=\frac{x_1+x_2+\ldots+x_n}{n}. \end{equation*}

Například, aritmetický průměr hodnot $3, 10, 12, 3, 1000$ je

\begin{equation*} \bar{x}=\frac{3+10+12+3+1000}{5}=205,6. \end{equation*}

Aritmetický průměr vyjadřuje „průměrnou“ hodnotu, kolem které se data soustřeďují. Hodí se zejména tam, kde data nabývají podobných hodnot bez příliš odlišných extrémů (tzv. odlehlých hodnot), které by aritmetický průměr vychýlily mimo typické hodnoty. Příklady můžou být: průměrná spotřeba auta, průměrná známka studenta, průměrná cena nájmu bytu v Praze, průměrná teplota v daném měsíci, atd.

Medián je hodnota větší nebo rovna polovině hodnot v souboru a menší nebo rovna polovině hodnot v souboru. Pokud je počet dat lichý, medián je prostřední prvek ve vzestupně uspořádaném souboru dat. Pokud je počet dat sudý, definici mediánu může odpovídat více hodnot. Obvykle se v takovém případě za medián považuje aritmetický průměr dvou prostředních prvků uspořádaného souboru dat (pokud jej lze spočítat). Například, medián hodnot $3, 10, 12, 3, 1000$ z předchozího příkladu je prostřední hodnota uspořádaného souboru

\begin{equation*} 3, 3, \underline{10}, 12, 1000, \end{equation*}

tedy $10$. Medián hodnot $3, 10, 1, 12, 3, 1000$ je aritmetický průměr prostředních dvou hodnot uspořádaného souboru

\begin{equation*} 1, 3, \underline{3}, \underline{10}, 12, 1000, \end{equation*}

tedy $\frac{3+10}{2}=6,5$.

Medián je vhodnější při větším rozptylu hodnot nebo v případě výskytu extrémních hodnot. Například medián příjmů obyvatel zachycuje příjem „typického“ člověka lépe než aritmetický průměr, který je zkreslen velmi vysokým příjmem pár jednotlivců.

Medián lze určit i pro nečíselná data, která se dají seřadit (tzv. ordinální). Například, pokud jsou v dotazníku hodnocení zákazníku možné odpovědi nespokojený, neutrální, spokojený, potom pro soubor dat spokojený, spokojený, nespokojený, neutrální, spokojený je medián spokojený. (V případě sudého počtu dat je třeba zvolit jiný způsob určení mediánu.)

Modus je hodnota, která se v souboru dat vyskytuje nejčastěji. Může být více než jeden, nebo nemusí existovat vůbec (pokud se žádná hodnota neopakuje). V našem příkladě souboru dat

\begin{equation*} \underline{3}, 10, 12, \underline{3}, 1000 \end{equation*}

je modus $3$. Na rozdíl od aritmetického průměru a mediánu lze modus použít i u neordinálních kategoriálních dat.