Microsoft představil nový malý jazykový model Phi-3 | Zatím není veřejně dostupný, ale utáhne jej i procesor iPhonu | Malé modely by jednou mohly běžet ve Windows, ale mají i svá úskalí
Microsoft Phi-3 je chatbot, který dokáže běžet i na telefonu. Co to jsou malé jazykové modely
Microsoft se pochlubil novým malým jazykovým modelem Phi-3 s 3,8 miliardami parametrů. Podobně jako Gemini Nano od Googlu má přinést chatboty na mobily a běžné počítače.
To je naprosto klíčové k tomu, aby jednou mohla nějaká ta AI fungovat třeba v nitru Windows bez potřeby neustále komunikace se vzdáleným datacentrem plným drahých grafik od Nvidie.
Malé jazykové modely se na scéně objevily během loňského roku a je to jakýsi protipól titánům, na které jsme si zvykli po příchodu ChatGPT v závěru roku 2022. Ale pěkně popořadě.
Proč ChatGPT nespustíme přímo na svém PC
Chatboty pohánějí jazykové modely, jejichž vnitřní složitost uvádíme stejně jako u ostatních neuronových sítí počtem už zmíněných parametrů.
Zatímco populární AI model detektoru obrázků YOLOv9 obsahuje pro představu několik milionů až desítek milionů parametrů, velikost mnohem komplikovanějších chatbotů se počítá na miliardy až biliony parametrů.
Abychom přitom mohli pracovat s podobným AI modelem, musí být celý nahraný v RAM (respektive v GPU RAM), a tak je z povahy věci zřejmé, že k běhu těch největších a nejschopnějších potřebujeme superpočítač s neméně astronomickou operační pamětí.
Kvanitzace
Protože se operační paměť běžných počítačů a mobilů počítá na jednotky gigabajtů, chatbota musíme nějakým způsobem zjednodušit, aby se tam vešel – musíme z něj udělat malý jazykový model.
Jak? Je to prosté. Drasticky snížíme počet parametrů a také jejich bitovou hloubku. Říkáme tomu quantization a ve vší stručnosti je to proces, ve kterém třeba původní 32bitové hodnoty v AI modelu zjednodušíme na 4bitové, čímž získáme až osminásobnou úsporu paměti.
Představte si ChatGPT jako panorama Prahy
Podobné zjednodušení a jeho následky můžeme připodobnit třeba k běžnému JPEG obrázku. I ten má své parametry a vy je dobře znáte, říkáme jim totiž pixely. Představte si, že analogií ChatGPT by bylo 900GPx panorama Prahy pořízené z Petřína a v HDR (900 miliard pixelů – parametrů – s velkou bitovou hloubkou).
Takový obrázek byste na svém domácím laptopu a v celku prostě nikdy neotevřeli, ale na nějakém superpočítači s ohromnou RAM už ano a při přiblížení 1:1 byste viděli oknem až kamsi do ložnice na Pražském hradě.
Co kdybychom teď obrovský obrázek zmenšili třeba na 50 MPx a 256 barevných odstínů? Rázem bude čítat jen 50 milionů parametrů, které budou mnohem jednodušší (jen 256 možných hodnot) a poradí si s ním každý počítač.
A za jakou cenu? Při přiblížení 1:1 už sice neuvidíme, co se odehrává za okenní tabulí Pražského hradu, i při tomto sníženém informačním rozlišení nicméně stále vidíme stavbu jako takovou – širší kontext. To přitom bude většině diváků bohatě stačit.
Proč malý jazykový model může stačit
Malý jazykový model se stejně tak nemůže ani náznakem rovnat ChatGPT v jeho drobných nuancích a astronomickém výčtu možností, na co všechno se ho můžeme zeptat, protože se ale většina lidí ptá chatbotů na stále ty stejné pitomosti (viditelný dům na zmenšeném panoramatu), dost možná by je dokázal zodpovědět i jejich zmenšený kolega.
A přesně na to sází Gemini Nano a nový Phi-3! Ve standardních testech chatbotů si nevede vůbec špatně, protože ano, oněch 3,8 miliard parametrů s 4bitovým zjednodušením (kvantizací) je dost na to, aby si s námi i v režimu chatbota smysluplně povídal třeba na iPhonu 15 a jeho armovém SoC Apple A16 Bionic.
A docela rychle, Microsoft se totiž v technické zprávě (PDF) chlubí rychlostí 12 tokenů za sekundu (1 token odpovídá 1-několika znakům).
Na stranu druhou už ale Phi-3 narazí ve chvíli, kdy po něm budete chtít nějakou detailní faktografickou informaci. Na to je 3,8 miliard tokenů už málo. Microsoft nicméně v dokumentaci logicky kontruje, že to, co Phi-3 nebude vědět, může delegovat třeba na Bing, který komplexnější informaci dohledá na internetu.
Stručně řečeno, i jednodušší člověk s IQ 80 (analogie SLM) dokáže použít Wikipedii a přečíst nám, co je to třeba Heisenbergův princip neurčitosti, aniž by chápal byť jedinou větu.
Většina SLM komunikuje jen anglicky
Malé jazykové modely tedy vypadají jako jedno velké win-win a možná tomu tak i jednou bude, těch „ale“ je v nich nicméně mnohem více. Zdaleka největší slabinou je podpora dalších jazyků mimo angličtinu.
Pokud má mít model jen 3,8 miliard parametrů – a ke všemu zjednodušených kvantizací – je zhola nemožné, aby s námi komunikoval anglicky, španělsky, francouzsky, německy… a samozřejmě česky. Microsoft přiznává, že to je slabina i jeho řady Phi a Trojka není výjimkou. Drtivá většina studijních textů, na kterých se učil, je totiž v angličtině.
To je ovšem problém, typickým úkolem vhodným pro SLM na laptopu nebo výkonném mobilu je totiž sumarizace textů – třeba elektronické pošty. Nevím jak u vás, ale drtivá většina mých příchozích e-mailů je v češtině.
Pomalou lokalizaci bohužel známe velmi dobře
S možným nástupem malých jazykových modelů na koncové počítače tedy hrozí to, co jako malý trh velmi dobře známe a co měly definitivně vyřešit naopak velké jazykové modely: ostudně pomalá lokalizace.
Suma sumárum, pokud Gemini Nano, Phi-3 a jejich následovníci budou chtít udržet svoji titěrnou velikost, neanglicky mluvící a píšící z nich budou těžit jen v případě, že Microsoft, Google a další dodají jejich lokalizované varianty pro ostatní jazyky.
I když je to malé, není to perpetuum mobile. Spaluje to elektřinu a žere prostředky
A tím výčet komplikací nekončí. Jak už jsme si vysvětlili v úvodu, pokud má mít model AI co nejnižší latenci, musí být neustále načtený v paměti. I poměrně malí chatboti přitom sežerou nemálo prostoru (předchůdce Phi-2 z loňského podzimu zabírá jen na disku dobrých 5 GB).
Pokud by takový chatbot běžel neustále na pozadí, aby mohl na náš povel okamžitě odpovídat, bude nepřetržitě zabírat drahocenné místo, o které přitom budou mít zájem i ostatní programy a hry. A nejen to; více zabraných prostředků bude odpovídat také většímu odběru elektrické energie, což je parametr, který bude na laptopech a mobilech zajímat nejednoho uživatele.
Ti se pak budou jistě ptát, jestli jim celá tato legrace stojí za to, když bude telefon už odpoledne zcela vyšťavený. Nelze než doufat, že tento problém časem vyřeší nové AI koprocesory, u kterých už nebudeme tleskat jen tomu, že A18 Bionic na iPhonu 15 dokáže utáhnout chatbota na bázi Phi-3 jako takového, ale tomu, že to také dává smysl a nezruinuje to baterii – na rozdíl od spuštění mobilní apky ChatGPT a dalších robotů, kteří prostě žijí v cloudu a basta.
Přečtěte si také:
News Related-
Z mostu na D1 se zřítil kamion. Vozidlo po pádu začalo hořet, řidič nehodu nepřežil
-
V solných ledovcích na planetě Merkur by se mohl nacházet život
-
Strava při kojení ovlivňuje zdraví a vývoj miminka. Zkuste náš vzorový jídelníček
-
Čína čelí epidemii zápalu plic u dětí. Úřady našly příčinu, o nový virus nejde
-
20 současných nejoblíbenějších dětských jmen: Nejsou tak neobvyklá, jak byste čekali
-
Jakou herní konzoli vybrat k Vánocům? Správná volba může ušetřit tisíce korun
-
Tomuto oblečení se raději vyhněte: Přidává kila navíc a opticky rozšiřuje
-
Počasí: V Česku spadne nový sníh, upozornili meteorologové
-
Pozadí vztahu Williama a Meghan: Od prvního setkání to měla Harryho žena spočítané
-
Mají nám zútulnit byt, přitom se jedná o časovanou bombu
-
Proč vám kokosová palma doma neporoste: důvody, které vám obchodníci neřekli
-
AI spojila luxusní kabelky a Lego. A my je chceme!
-
Argentina hledá 40 miliard na dolarizaci. Nový prezident brzy zamíří do USA
-
Uličník Bujnoch ze Saxany: Michal Hejný zemřel na nevyléčitelnou nemoc, předtím si splnil velký sen