Модель ШІ Qwen2.5-VL від Alibaba може запускати Booking.com на Android та бронювати квитки з Чунціна до Пекіна (відео)

Alibaba розробила AI, який може керувати вашими пристроями: ПК та телефонами Alibaba випустила AI моделі, що можуть керувати ПК та телефонами. Джерело: CrossML

Команда Qwen китайської компанії Alibaba оголосила про випуск нової лінійки AI моделей Qwen2.5-VL, здатних виконувати низку завдань з аналізу тексту та зображень.

Що відомо

Моделі можуть обробляти файли, розуміти відео, підраховувати об’єкти на зображеннях, а також керувати ПК, що подібно до моделі, яка працює в OpenAI Operator.

За даними тестування, модель Qwen2.5-VL перевершує GPT-4 від OpenAI, Claude 3.5 від Anthropic та Gemini 2.0 Flash від Google за результатами оцінки розуміння відео, математики, аналізу документів та відповідей на запитання. Модель здатна аналізувати графіки та діаграми, витягувати дані зі сканів рахунків та форм, а також “розуміти” відео тривалістю кілька годин.

Результати тестування Qwen2.5-VL
Результати тестування Qwen2.5-VL. Ілюстрація: Alibaba

Цікавою особливістю Qwen2.5-VL є здатність взаємодіяти з програмним забезпеченням на ПК та мобільних пристроях. Відео, опубліковане на X, показує, як модель Qwen2.5-VL запускає додаток Booking.com на Android та бронює квиток на літак з Чунціна до Пекіна. Однак на тесті на Linux-десктопі модель виявилася менш ефективною, обмежуючись лише перемиканням вкладок.

Моделі Qwen2.5-VL також мають певні обмеження в темах, які вони обговорюють, зокрема у Qwen Chat, через контроль китайського інтернет-регулятора, що вимагає дотримання “основних соціалістичних цінностей”.

Моделі Qwen2.5-VL доступні для тестування в додатку Qwen Chat і на платформі Hugging Face. Модель Qwen2.5-VL-72B має спеціальну ліцензію, яка вимагає дозволу на комерційне використання для компаній з більш ніж 100 мільйонами активних користувачів на місяць.

Джерело: @_philschmid

Adblock test (Why?)

Кредит на карту онлайн

Залишити відповідь