


Meituan обяви пълното издание с отворен код на своя собствен мултимодален голям модел, LongCat-Next, разработен от екипа на LongCat.
За разлика от конвенционалните големи модели, които разчитат на „първо езикова“ архитектура с допълнителни модули за зрение и реч, LongCat-Next въвежда коренно различен подход. Той обединява изображения, аудио и текст, като ги картографира в споделен набор от отделни токени от самото начало.
Вместо да комбинира езиков модел с отделни визуални енкодери и модули за реч, LongCat-Next е изграден като родна мултимодална основа. Всички модалности – текст, изображения и аудио – първо се преобразуват в токени в рамките на споделено дискретно пространство и след това се обработват от единичен гръбнак само за декодер.
Този дизайн поддържа основната архитектура толкова рационализирана като традиционен езиков модел, като същевременно измества мултимодалната сложност към слоевете на токенизатор и детокенизатор, специфични за всяка модалност.
Основното разграничение е в основната му философия. Традиционните мултимодални модели третират текста като основна модалност, интегрирайки други като разширения. За разлика от тях, LongCat-Next третира текста, изображенията и аудиото като фундаментално еквивалентни – всеки може да бъде представен като токени, водени от предсказване на следващ токен и разбрани като различни „езици“ в рамките на едно и също представително пространство.

Източник: AI Daily
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта