Tento měsíc se nese ve znamení pronikání AI a LLM do staronových sfér: vyhledávání, computer use, realtime interakce... Podíváme se i na State of AI, report za rok 2024.
TL;DR
- Souboj AI vyhledávačů se rozjíždí: SearchGPT, Gemini Grounding...
- Computer Use API od Anthropic přichází s možností lépe porozumět a ovládat obrazovku vašeho zařízení. K tomu přidal i nové modely jako Sonnet 3.5 new a Haiku 3.5.
- OpenAI představil Realtime API, velmi schopný model s možností realtime interakce, schopný generovat a přijímat text i audio.
- GitHub představil novou verzi GitHub Copilot s možností výběru jazykového modelu, lepší customizací a možností editovat více souborů najednou – konkurence pro Cursor.
- Prompt caching přináší výrazné zlevnění v rámci využívání opakujících se informací, což je pokračující trend lepší cenové dostupnosti těch nejpokročilejších modelů.
- AI report za rok 2024 je tu i s vyhodnocením předpovědí a s predikcemi na rok 2025.
Novinky
Vyhledávání na webu v kombinaci s LLM není úplnou novinkou, společnosti Perplexity a Bing jsou s takovým produktem na trhu již delší dobu. Před několika měsíci začal AI integrovat do svého vyhledávače i Google, výsledek byl ale poněkud kontroverzní: odpovědi na vyhledávané dotazy byly zjevné nesmysly.
OpenAI již dříve oznámila SearchGPT, tedy integraci ChatGPT s možností vyhledávání na internetu pomocí LLM, která by již měla být dostupná širší veřejnosti.
K tomu všemu přichází Gemini Grounding, což je vývojářské API postavené na modelu Gemini Pro, které v sobě přímo integruje vyhledávání, což by mělo redukovat halucinace a přinést aktuálnější informace.
Computer Use API od Anthropic představuje API schopné porozumět tomu, co je na monitoru, dokáže jasně identifikovat, kde se daný prvek nachází, a dokáže určit, jakou akci má vykonat, aby splnil požadovaný úkol. Podobné využití LLM už existovalo dříve, ale toto je první API svého druhu postavené na state-of-art modelu s jednoduchou integrací. Claude tak dokáže ovládat počítač, rozhodovat, jakou akci má dále vykonat, a tím pádem autonomně plnit různé úkoly. Jelikož je tento nástroj dostupný i jako API, je možné ho využívat pro různé účely automatizace, což může otevírat zajímavé a kreativní možnosti využití. V rámci ukázky použití si například Claude sám dohledal chybějící informace při vyplňování formuláře.
Realtime API od OpenAI posouvá LLM zase blíže k lidštější interakci: umí zpracovat textové i zvukové informace, které dokáže produkovat v reálném čase. Něco podobného bylo možné i dosud, ale byl to složitý proces, kdy jeden model nejprve překládal hlasové informace do textu nebo naopak, což v rámci konverzace vytvářelo dlouhé prodlevy. Realtime API přichází se skutečně realtime zpracováním, s možností přerušení a napojením na celkem schopný model. Cena využití takového API je v současnosti poměrně vysoká, ale to byl i GPT-4 během prvního vydání, kterému od té doby klesla cena několikanásobně.
GitHub Copilot přináší výrazná vylepšení v rámci svého rozšíření jako asistenta při programování. Copilot přišel nejdříve jako autofill, později jako chat s omezenou funkcionalitou, která se nyní výrazně rozšiřuje. Největší novinkou je možnost výběru jazykového modelu, mezi které patří například Claude 3.5 Sonnet, Gemini 1.5 Pro a OpenAI o1-preview. Kromě toho přináší i možnost editovat více souborů najednou pomocí multi-file editingu. Tato vylepšení dělají z GitHub Copilot ještě robustnější nástroj pro vývojáře. V současnosti v takových nástrojích vede Cursor, za kterým bude mít Copilot ještě co dohánět.
Zlevňování využívání LLM pokračuje i díky nové funkci prompt cachingu. Gemini má tuto funkcionalitu již déle, Claude jenom pár měsíců, nyní přichází do prostředí OpenAI. Jako vývojáři jste schopni určit, které části promptu se budou opakovat, a tedy v případě, že mnoho vašich promptů čerpá z podobných informací, může být výsledkem i více než 50% úspora ceny. To naznačuje trend zlevňování využívání state-of-art modelů.
AI report za rok 2024 od Air Street Capital, který připravil AI investor Nathan Benaich, již sedmým rokem přináší komplexní pohled na vývoj v oblasti AI. Report analyzuje čtyři klíčové dimenze: výzkum, průmysl, politiku a bezpečnost, přičemž tradičně obsahuje i predikce pro následující rok. Hlavní zjištění letošní zprávy zahrnují:
- Konvergence výkonu modelů. Rozdíl mezi GPT-4 a ostatními modely se zmenšuje, i když OpenAI o1 v žebříčcích momentálně vede.
- Komerční úspěch. Hodnota AI společností dosáhla $9T, přičemž některé firmy začínají generovat významné příjmy – zejména v oblasti video a audio generace.
- Nové priority ve výzkumu. Důraz se přesouvá na plánování a uvažování v LLM, s explorací kombinací s reinforcement learning a evolučními algoritmy.
- Multimodální využití. Foundation modely prokazují schopnost překročit hranice jazyka a podporují výzkum v matematice, biologii, genomice a neurovědě.
- Geopolitické aspekty. Americké sankce mají limitovaný efekt na schopnost čínských laboratoří produkovat kvalitní modely.
- Nové byznys modely. Vzniká trend „pseudoakvizic“ jako alternativního východiska pro AI společnosti, které mají problém najít udržitelný byznys model.
- Bezpečnostní otázky. Diskuze o existenčních rizicích se zmírnila, ale výzkumníci pokračují v prohlubování znalostí o potenciálních zranitelnostech a ochranných mechanismech.
Přicházejí i s vyhodnocením predikcí z předchozího roku:
A na další rok předpovídají například velké investice, pokroky v open-source modelech, nebo také úspěch projektu vytvořeného člověkem bez znalosti programování.
Celá zpráva je dostupná na oficiální stránce.
Co mohou novinky znamenat?
AI pomalu proniká do dalších odvětví, multimodální schopnosti modelů se postupně zlepšují, ceny využívání různých modelů stále klesají a AI vidíme více a více integrované v různých nástrojích od vyhledávání přes smart asistenty až po různé automatizační nástroje.
To, co je dnes v rámci AI drahé nebo nedosahuje dostatečné kvality, bude pravděpodobně za pár měsíců nebo za rok značně levnější a bude to fungovat výrazně lépe. Můžeme tedy předpokládat, že AI bude nadále pomalu pronikat do různých odvětví a postupně se začne stávat běžnou součástí našeho života.
Jako programátor si už nedokážu představit fungovat bez Copilota, který za mě dokončuje opakující se kód nebo který mi pomáhá validovat a refaktorovat kód. Technologie, která by před dvěma lety zněla jako něco z fantazie, je už něčím běžným, co beru jako samozřejmost.
Věřím, že podobné trendy čekají i ostatní odvětví a je jen otázkou času, kdy si tyto technologie najdou běžné místo i v jejich rámci a AI asistenti se stanou běžnou součástí života i mimo svět technologicky zdatných lidí.
Zajímavosti
- GitHub Spark představuje nový AI-nativní nástroj pro vytváření jednoduchých aplikací pomocí přirozeného jazyka. Nabízí deployment-free hosting, přizpůsobitelný design systém, perzistentní ukládání dat a integrovanou možnost upravování částí aplikací.
- NotebookLM od Google přináší další zajímavý způsob interakce s počítačem. Z nahraných dokumentů dokáže vytvořit systém, který odpovídá na specializované otázky nebo vám z daných zdrojů vytvoří například podcast. Pokud byste si chtěli poslechnout State Of AI report jako podcast díky NotebookLM, můžete na YouTube.
Futured tip: Jako podcast jsme zpracovali i celé listopadové AI News.
AI News připravuje Martin Sumera.
Futured & AI. AI se do technologických řešení propisuje stále více, proto máme ve Futured dedikovaný AI tým, který se specializuje na integraci AI do nejrůznějších firemních procesů. Zpravidla se jedná o činnosti, které zabírají hodně času nebo vyžadují zapojení hodně lidí.
Baví vás, jak o technologiích přemýšlíme? Zajímá vás, jak můžete AI využít pro svůj byznys? Napište Lukášovi Strnadlovi, který Futured založil: [email protected] & +420 605 312 459.
Chcete se k nám přidat? Aktuálně hledáme hned několik kolegů. Ozvěte se Míše Kormošové a pobavte se o možnostech spolupráce: [email protected] & +420 739 106 507.