Мултимодален модел с отворен код на Meituan LongCat-Next

Meituan обяви пълното издание с отворен код на своя собствен мултимодален голям модел, LongCat-Next, разработен от екипа на LongCat.

За разлика от конвенционалните големи модели, които разчитат на „първо езикова“ архитектура с допълнителни модули за зрение и реч, LongCat-Next въвежда коренно различен подход. Той обединява изображения, аудио и текст, като ги картографира в споделен набор от отделни токени от самото начало.

Вместо да комбинира езиков модел с отделни визуални енкодери и модули за реч, LongCat-Next е изграден като родна мултимодална основа. Всички модалности – текст, изображения и аудио – първо се преобразуват в токени в рамките на споделено дискретно пространство и след това се обработват от единичен гръбнак само за декодер.

Този дизайн поддържа основната архитектура толкова рационализирана като традиционен езиков модел, като същевременно измества мултимодалната сложност към слоевете на токенизатор и детокенизатор, специфични за всяка модалност.

Основното разграничение е в основната му философия. Традиционните мултимодални модели третират текста като основна модалност, интегрирайки други като разширения. За разлика от тях, LongCat-Next третира текста, изображенията и аудиото като фундаментално еквивалентни – всеки може да бъде представен като токени, водени от предсказване на следващ токен и разбрани като различни „езици“ в рамките на едно и също представително пространство.

LongCat.png

Източник: AI Daily

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

By admin