TL;DR
- OpenAI představilo modely o1, o1-pro a o3, významný skok směrem k reasoning schopnostem LLM.
- Google uvedl Gemini Flash 2.0, malý, ale mimořádně výkonný model překonávající předchozí verze.
- Čínský open-source model DeepSeek v3 dosahuje vynikajících výsledků – a je znatelně levnější.
- Dočkali jsme se uvedení Sora pro text2video generování a také Voe2 od Google, který podle mnohých Soru významně překonává.
Novinky
OpenAI vydalo modely o1 a o1-pro a o pár dní později ohlásilo o3, který podle interních benchmarků OpenAI překonal nejrůznější očekávání a znamená pokrok směrem k modelům, které dokáží výrazně lépe generalizovat.
Pokud si vzpomínáte, před více než rokem prošla společnost OpenAI turbulentním obdobím: výměnou CEO, výměnou dalšího CEO, potenciální rezignací většiny zaměstnanců, možnou akvizicí Microsoftem, výměnou představenstva OpenAI... Jedním z důvodů byl údajně model nazývaný Strawberry, který měl integrovat pokročilé schopnosti uvažování. V září jsme se dočkali o1-mini a o1-preview, které už prvky tohoto „myšlení“ obsahovaly. Generování odpovědí trvalo sice déle, ale výsledky byly zejména u komplexnějších otázek výrazně lepší.
S příchodem o1 a o1-pro přišly smíšené reakce. Podle některých benchmarků jsou tyto modely sice výrazně lepší než konkurence, ale u specifických úkolů jako programování spíše pokulhávají. Dalším problémem je delší čas potřebný pro generování odpovědí a vysoká cena za používání. OpenAI totiž zavedlo nové předplatné ve výši 200 dolarů měsíčně pro přístup k o1-pro, což je oproti běžnému předplatnému 20 dolarů velký skok (velký = desetinásobný). Pro některé uživatele, zejména ve vědeckém výzkumu, může být tato cena ok, ale pro běžné použití je už značně vysoká.
Po o1 modelech přišlo oznámení i ohledně modelu o3, který pokračuje v linii a zdá se být mnohem výkonnější. (Zajímavost: Verze o2 byla vynechána přesně z toho důvodu, který si myslíte – zřejmě se báli, že by jim přišla faktura za překročení datového limitu při tréninku. 🥁 + haha) Ačkoli je o3 stále jen v research preview kvůli bezpečnosti a není veřejně dostupný, v benchmarcích, které zveřejnilo OpenAI, dosahuje vynikajících výsledků.
Například v benchmarku ARC-Prize, který byl vytvořen tak, aby úlohy byly relativně jednoduché pro průměrného člověka, ale přitom náročné pro LLM, a který měl být měřítkem toho, jak blízko jsme k AGI (všeobecné umělé inteligenci), dosáhl o3 skóre 87 %, což je obrovský skok oproti předchozím výsledkům – a dokonce překonává průměrného člověka. Předpokládalo se, že tento benchmark ještě několik let nepřekonáme, takže světová komunita je skokem zaskočena (slovní humor za 3 tisíce dolarů).
Problémem však zůstává obrovská výpočetní náročnost a s ní spojené náklady. Vyřešení jedné úlohy může stát tisíce dolarů – pro běžné použití spíše absurdní.
Porovnání různých výsledků modelů o1 a o3 v rámci ARC-prize benchmarku
O kvalitách možná nejlépe vypovídá umístění na 175. příčce mezi nejlepšími soutěžními programátory světa v rámci platformy Codeforces.
Google představil nový model Gemini Flash 2.0, který je sice malý, ale mimořádně výkonný. Podle benchmarků dokonce překonává Gemini 1.5 Pro a hlavně: za výrazně nižší cenu poskytuje výrazně lepší výsledky. Tento pokrok poukazuje na trend vývoje menších a výkonnějších modelů, což umožňuje jejich širší nasazení a integraci do různých zařízení.
Google také uvedl nové real-time API umožňující komunikaci v reálném čase. To znamená, že můžete poslat zvukový vstup a model vám okamžitě odpoví také ve zvukovém formátu – taková technologie otevírá dveře pro vytváření pokročilých hlasových asistentů či telefonních agentů. OpenAI podobné API ohlásilo už dříve, ale zdá se, že cena Google modelu bude výrazně nižší, pro osobní použití je dokonce několik desítek požadavků za minutu zdarma.
Tip: Tyto modely si můžete vyzkoušet zcela zdarma a bez registrace přímo v rámci nástroje AIStudio od Googlu: Flash 2.0 & Realtime.
DeepSeek v3 od čínské společnosti DeepSeek je se 671 miliardami parametrů největší open-source model, který je mimořádně schopný, a přitom stále velmi rychlý. V rámci benchmarků překonává nejrůznější komerční modely, a to i cenou (je přibližně desetkrát levnější než GPT-4).
Kvůli své velikosti sice nepředstavuje řešení, které běžný uživatel dokáže jednoduše lokálně spustit, ale krok k demokratizaci umělé inteligence rozhodně znamená. Zajímavé jsou i pohledy na cenu jeho vytvoření: Odhaduje se, že jeho trénování stálo okolo 5 milionů USD a trvalo méně než dva měsíce, což je přibližně desetkrát méně než stála tvorba Llama 3 od Mety.
Co to všechno může znamenat?
Pokrok v oblasti AI je neustálý a nezastavitelný. Vidíme, že open-source modely rychle dohánějí své komerční protějšky. Vývoj se ubírá různými směry – od výkonných, ale drahých modelů jako o3, přes menší a efektivnější modely jako Gemini Flash 2.0 až po jejich open-source verze jako DeepSeek v3.
Technologie umělé inteligence se stávají stále dostupnějšími, schopnějšími, rychlejšími a levnějšími. Podle názorů lidí, kteří vidí hluboko do problematiky, jako je Ilya Sutskever, jeden ze zakladatelů a bývalý výzkumník z OpenAI, se pomalu dostáváme na konec dosavadního pokroku v AI. Škálování modelů pomocí zvyšování množství dat použitých k tréninku se blíží ke konci a nastává menší změna, kdy se výzkum bude více soustředit na nové algoritmy a zlepšování hardwaru.
Neznamená to však konec AI boomu, pouze novou kapitolu. Ilya předpokládá, že LLM budou lepší, předvídatelnější, budou chápat kontext z menšího množství dat a budou autonomnější.
V AI komunitě se o roce 2025 hovoří jako o roce agentů, kdy LLM začnou fungovat samostatněji než dosud. Ačkoli byl podobný názor slyšet už na začátku roku 2024, nyní zaznívá čím dál častěji – a to nejen z komunity, ale i od velkých hráčů jako Google, Anthropic a OpenAI. Čekají nás zajímavé časy.
Zajímavosti
Sora vs Veo2. Aka dlouho očekávaný model od OpenAI vs překvapivě dobrý model od Google. OpenAI oznámil text2video model začátkem roku spolu s modelem Sora, který znamenal celkem velký šok ohledně toho, co generativní AI dokáže s videem, a způsobil menší poprask na internetu. Zůstalo ale pouze u oznámení a vydání jsme se dočkali až koncem roku. Ve stejnou dobu oznámil nový text2video model i Google, který kvalitou zřejmě předčil model Sora docela výrazně. Veřejně dostupný však zatím není. Porovnání si můžete prohlédnout sami.
Deep Research & Project Mariner. Google představil další dva významné nástroje v oblasti umělé inteligence. Prvním je Deep Research fungující jako výzkumný asistent schopný zpracovat komplexní témata a vytvářet zprávy s odkazy na relevantní zdroje. Druhým je Project Mariner, pokročilý prohlížečový agent, který dokáže analyzovat a pracovat s různými typy informací na obrazovce – od textu přes obrázky až po kód. Tento nástroj je schopen samostatně plnit úkoly na základě pochopení zobrazovaného obsahu, přičemž dosáhl pozoruhodného výsledku 83,5 % v testu WebVoyager, což představuje nejlepší dosažený výsledek v dané oblasti.
Genesis, velký výzkumný projekt, dva roky práce a spolupráce více než dvaceti laboratoří z celého světa. Výsledkem byla kapka vody stékající po lahvi Heinekenu, která znovu překvapila technologický svět. Kromě oblastí, které jsou nám známé, jako text, obrázky, video a zvuk, které generativní AI pomalu mění, vznikl projekt v oblasti fyzikální simulace. Genesis je průlomový systém, protože dokáže automaticky generovat fyzikálně přesné simulace robotů, prostředí a pohybů na základě textových pokynů, což dramaticky zjednodušuje vývoj a testování v robotice. Může se využít k tréninku robotů, vytváření realistických virtuálních prostředí pro AI, testování robotických systémů před nasazením v reálném světě a generování trénovacích dat pro umělou inteligenci, což významně urychluje výzkum a vývoj v oblasti robotiky a umělé inteligence.
AI News připravuje Martin Sumera.
Futured & AI. AI se do technologických řešení propisuje stále více, proto máme ve Futured dedikovaný AI tým, který se specializuje na integraci AI do nejrůznějších firemních procesů. Zpravidla se jedná o činnosti, které zabírají hodně času nebo vyžadují zapojení hodně lidí.
Baví vás, jak o technologiích přemýšlíme? Zajímá vás, jak můžete AI využít pro svůj byznys? Napište Lukášovi Strnadlovi, který Futured založil: [email protected] & +420 605 312 459.
Chcete se k nám přidat? Aktuálně hledáme hned několik kolegů. Ozvěte se Míše Kormošové a pobavte se o možnostech spolupráce: [email protected] & +420 739 106 507.