Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики.
Продолжая посещать сайты проектов вы соглашаетесь с нашей
Политикой в отношении файлов cookie
И в первом и во 2 случаи… Какой конкуренции? Если у АМД рабочий софт для этих ускорителей — нестабильный/менее производительный до сих пор, ещё и Куда сверху добивает, в итоге превращая отличное железо в непонятно что. По той же причине нет смысла выпускать аналоги 5090, т.к. её для ИИ возьмут и рабочих нагрузок с которыми с.м. выше, а если ещё у 5080 памяти будет 24гб — по той же причине и с ней тяжело будет конкурировать. В итоге, какой смысл предлагать сверх-дорогое железо по более дешёвой цене в игровом сегменте? ИИ сегмент серверный — другое дело, там от безысходности могут взять и в надежде что допилят софт.
Инновация эппле заключалась только в том что они умудрились скомпоновать нормальный тач, управление, в добавок к нормальной ОС, еще и звук неплохой всунули. Тем самым переведя аналогичные гаджеты из разряда компактных гиковских кирпичей, над которыми угорали обычные обыватели, в разряд удобных устройств которые все хотят. В остальном — полно аналогов было.
Вот из-за новостей, такого черри пикинга, и отдельных, впечатлительных людей, которые не понимают как нейронки пашут — цензуру и внедряют, причем деградируя саму производительность модели вместо того что бы просто сделать внешний, отключаемый фильтр. И модели, в итоге, во много раз «предвзятей» генерирует противоположность, которую, которую почти не фиксят, потому что это «правильная» генерация.
Запомните раз и на всегда, на текущие нейронки вы НИКАК повлиять не можете в рамках их модели(не обучить, ни научить и подобное, а еще они не умеют думать и рассуждать, как люди). Единственное как ваш чат может попасть в нейроку, это когда разработчик его «сворует», после он пройдет модерацию и попадет в материалы для обучения следующей версии модели где,-то через пару месяцев-год(но для модели, грубо, это будет просто один из примеров, а не память о вас).
Подобие памяти влияющей на текущий разговор вы можете создать или увеличением контекста(доступное текстовое окно которое воспринимает ИИ) с добавлением всех разговоров в этот контекст, или используя суммаризацию разговора и скрытое добавлением, и не забываем про правильные инструкции(а может использование некоторых внешних инструментов и тригеров).
Это всё неумел чатГПТ(раньше, сейчас что-то подобное есть), и любая локальная модель — это не умеет из коробки.
Если вы хотите посмотреть как, примерно, такая «память» о вас может выглядеть в рамках контекста — просто поищите в интернете карточки персонажей для ролеплея с примерами диалогов и прочего, только будьте готовы что там полно бредового NSFW контента.
Возвращаясь к самым моделям, что бы совсем упростить, они больше как попугай, пытаются сгенерировать правдоподобный ответ из похожего в их памяти, инструкций и текущего контекста. Догадаетесь как разговор доходит до бреда, а точнее кто его доводит, а потому ужасается и обижается? Это и в случаи цензуры происходит, просто модель чрезмерно обучена на этом, потому «тригерится» в самых неожиданных местах.
З.ы. Самый просто способ проверить то, насколько модели, на самом деле, тупые и не умеют думать(в привычном нам понимании) — протестировать их в текстовых приключениях, или на подобном материале с уникальными вещами или ситуациями. Они там буквально начинают лажать через раз, а иногда «забывать» то что было в предыдущем сообщении, игнорить контекст и прочее.
Ну-ну… Один из примеров такой не зашоренности — цензура у ИИ. Многие её составляющие, буквально, основаны не на научных фактах, а на том как чувствуют и во что поверили сами разрабы, а затем скормили этот обучающий материал ИИ.
И да, у многих моделей она протекает со всех щелей, как и многие другие бзыки.
Почему же? Сейчас очень неплохо улучшаются мелкие и большие модели, а для их запуска не нужно мощное железо. Плюс улучшается само железо и программная часть. Сейчас ллама 8B выдает такой де результат на ролеплее как крупные 170B ИИ модели из 18-20го года. Беда их только в том что кругозор маленький, а еще их производительность дополнительно калечат цензурой и позитивным биасом, вместо того что бы внешние фильтры улучшать. Но первое, не особо проблема, если есть базовая, хорошая модель, которую, затюнили на ЛОРе игры, а вот как быть со вторым — хз.
F16 Nemotron-Mini 4B весит всего 8 гигов, 8q — 4гига, а часто используемые q4-6 — от 2.5 до 3.5. Если генерить на видике — будет летать. На проце — зависит от проца. У меня q8 12 токенов в секунду на 5600g выдавала(т.е. 2 средних предложения за 5.6 сек генерилось).
Плюс модель натренирована отвечать коротко.
Если строго определить роль персонажа и сказать что бы он был инкузивным + запретить отклонятся — может даже и норм будет(хотя, сильно сомневаюсь, т.к. почти все 2-4б модели — тупые в диалогах). А еще, шаг влево-право — тригернеться способность любых моделей быть «безопасными и безопасными», или галюны. Потому, не совсем понимаю как их можно будет использовать в каких-то сценариях с жестокостью и подобным.
З.ы. У меня, к примеру, более крупная модель Немо, умудрялась в одном тестовом сценарии(в одном месте) и расизм приплести, и то что женщины гораздо менее виновны чем мужчины, и всунуть теорию пробуждения, или как она там называется. И это все про связанных гоблинов, и их лидершу, которые 3 секунды назад пытались, почти успешно, ГГ свежевать, сварить да сожрать. На минуточку, эта модель считается самой не зацензурной.
Уважаемый, вам уже все объяснили, но вы продолжаете гнуть свою линию беря q8 как основу. То что разраб выкатил gguf для удобства пользователя, абсолютно не означает что он какой-то магичeский. Вон разрабы для мобилок q4 выкатывают, просто потому что для мобилок, такое ухудшение модели — приемлемо, и работает с нормальной скоростью.
Я вон пробовал и 16 и 32 Немо — они чуточку лучше чем 32>16>q8, но я же не втираю что потребительские карты — недокарты, фи и ололо, потому что мне 16 или 32 нравится больше. Я, к примеру, сейчас тестю q6 ламму кастомную, и она вменяемей понимает запрос чем стандартный q8, ещё и весит немного меньше, но это не означает что она на всех задачах такая.
По поводу контекста… Не знаю как сейчас, но раньше 2к контекста занимало около 0.54 гиг, т.е. 4 — 1.08, 8-2.16, 16-4.32гб и т.д.
Итого, 12.12+2.16 для 8к + *память зарезервированная виндой, если винда*.
К слову, у Seraph она не должна поместиться в память, но что-то не сильно страдает, видимо...
К слову если человек не генерит новеллы или тонну кода, ему и 10 токенов генерации+стриминг хватит с головой, там главное что бы изначальная строка обрабатывалась быстро, и когда контекст вытесняться начнет -тоже. В такую скорость умеют современные цп, а вот со стартовой обработкой и т.д. даже у крутых серверных — беда, но там слитие любого количества слоев — помогает.
З.ы. Если уж на то пошло, хочется именно ллм крутить — полно ультра-бюджетных вариантов с 16-24гигами. В казуальном же сегменте, объем памяти — вообще не решает, т.к. гибко всё и зависит от многих факторов. Даже на тормозном 5600, без видика, можно спокойно q8 использовать для чата с краткими ответами, если устраивает 4 токена скорости.
То есть, вы конспирологияю прочитали и ретранслируете. Что-то я такой ерунды на англ. сегменте не видал, не на даче на хватались случайно? Да и то что модель может потенциально не стартовать на релизе, без обновление ПО — абсолютно нормальное явление. У меня вон и gemma и phi, и ламма 3.1 не работали.
У вас сильная негативная фиксация на нфидия… Вам что, Хуанг куртку не подарил? Каким образом при обучении модели можно что-то намудрить эдакого? И вообще, вы хоть поинтересуйтесь что это за gfx1030, или почему gfx906 это mi50 или mi100 это gfx908, и т.д… не сильно ведь сложно в гугл вбить.
Алексей Шатрыкин знает как выставить невидиа непрезентабельно из-за отсутствия 16 гигов… Хотите я проделаю тот же финт ушами что и он? На самом деле модель требует… Ахм… 48+ гигов и 25+ гигов… Т.е. её не невидия не амуде не запустит на потребительских карточках… Плак-плак, нужна серверная материнка + 2-3 карточки+желательно, линукс… Есть квантованные модели с меньшими аппетитами к памяти, но там снижена точность — привет Q8(о котором он вещает) и ниже… А если вернуться к фактам, на Q6-Q5 точность не прямо что уж сильно страдает, просто кто-то решил за точку отсчета взять более выгодный, для своей позиции, вариант, да и задачи бывают — разные. И это я не говорю что существуют еще не совсем стандартные Q6-Q5, к примеру тот же ZeroWw на обнимай-лице делает, типа для чатов и рп.
Вообще, есть доказанный факт — если вы хотите работать с ИИ много и разно, пробовать новинки без танцев с бубном, то вам к нвидиа.
Если вам модельки крутить(может быть немного медленней, но не факт), или потанцевать изредка, или не нужна уж прямо большая срочность — АМД тут имеет много преимуществ с точки зрения цены и объема. А с 7й серией, вышеупомянутых «проблем» АМД — еще меньше. Да и софт достаточно быстро улучшается и поддержка.
DAO никакого отношения к DnD не имела кроме жанра и того что это игра от разработчиков NWN и BG, смысл существования DA в разработке собственной CRPG без лицензии
Он наверно имел ввиду, что там там остатки от компьютерной реализации правил ДиД и кубика остались. Если честно, во время игры хотелось прибить тех кто в такие прекрасные игры придумал всунуть этот элемент в таком виде, тупо замедляющий игровой процесс раз в 10.
Про модельки — тоже спорно. В боготворимой DAO — они были вообще условными. И это буквально такое же убожество, что показали в новой части, только со знаком минус. Во второй части, к примеру, фанаты буквально на говно изошли, в том числе из-за дизайна рас(особенно из-за эльфиских греческих носов или профилей), хотя там всем добавили индивидуальности и всё углубили. Инвизишн я так и не собрался пройти(так что не могу судить), но вот последняя часть — закономерный результат. =)
Я бы поспорил. Взять литературу, еще в начале двухтысячных, 99% развлекательной литературы были «штамповкой» почти уровня современных нейросеток. А сейчас, я так подозреваю, что много авторов подобной литературы используют нейросетки для помощи в написании книг(встречаются определенные обороты, которые нейростеки используют определенным образом). Музыку нейросетки тоже пишут всё более и более интересно, как и рисуют. И заметьте, это еще даже не полноценный ИИ.
Совсем на повестке помешались. Проблема не столько в повестке сколько в тотальной цензуре по любому поводу(к примеру, из-за правообладателей), да и тестируют юмор ИИ, обычно, на сайтах компаний, а не через АПИ — там всё еще больше закручено. Тот же упомянутый Клод(3), через АПИ и с коротким позволением отвечать как хочет — легко скатывается в агрессию и порнографию при обычном диалоге, особенно когда отыгрывает роль.
Кстати, в реальности выглядит намного лучше чем на картинке, и звучал — тоже неплохо. У классик трешки еще был дизайн интересный и очень удобный сенсор. А еще, я любил модифицированную весию 5рки: черный корпус, белое колесо, и черная кнопка — выглядело интересно(почему эпл до такого не додумались с завода — загадка), а после переделок он еще и под 120-150 часов флак крутил.
З.ы. И конечно же, опубликовалось это, почему-то, под чужим ответом…
Скорее, тут обычные хиханьки о том что новый длсс лишние кадры печатает, а остальные так не умеют. И как бы это не критиковали, но очень крутая штука, особенно в сингл играх. Соответственно, карты ниже 4ртой, ну или амд, или интел умеют только ИИ/умный апскейл, для повышения производительности.
А так то, ни одна карта без костылей нормальную кадровую частоту не обеспечивает в этой игре.
З.ы. АМД обещала выпустить схожую функцию по увеличению кадровой частоты — но описанные сроки уже профукала, и когда её внедрит — тоже не понятно(если я, конечно, что-то не пропустил).
У моего знакомого была ржаная ситуация в Китае, на выставке или чём то подобном лет 10 назад. Там, для маркетинга, ноунеймы давали подобные аппараты ронять на пол. Так вот, он умудрился угробить 2 аппарата подряд от одного производителя, просто роняя на пол… И это при том что перед ним этот аппарат демонстративно несколько раз роняли представили бренда, без особых последствий.)
«Патент Sony описывает геймпад, который сможет менять свою температуру и физические свойства.»
И стоить в 2 раза дороже… Но… У него все так же будут дрейфовать стики, потому что недорогие не убиваемые стики на датчиках Холла или чем еще им создать в лом…
Запомните раз и на всегда, на текущие нейронки вы НИКАК повлиять не можете в рамках их модели(не обучить, ни научить и подобное, а еще они не умеют думать и рассуждать, как люди). Единственное как ваш чат может попасть в нейроку, это когда разработчик его «сворует», после он пройдет модерацию и попадет в материалы для обучения следующей версии модели где,-то через пару месяцев-год(но для модели, грубо, это будет просто один из примеров, а не память о вас).
Подобие памяти влияющей на текущий разговор вы можете создать или увеличением контекста(доступное текстовое окно которое воспринимает ИИ) с добавлением всех разговоров в этот контекст, или используя суммаризацию разговора и скрытое добавлением, и не забываем про правильные инструкции(а может использование некоторых внешних инструментов и тригеров).
Это всё неумел чатГПТ(раньше, сейчас что-то подобное есть), и любая локальная модель — это не умеет из коробки.
Если вы хотите посмотреть как, примерно, такая «память» о вас может выглядеть в рамках контекста — просто поищите в интернете карточки персонажей для ролеплея с примерами диалогов и прочего, только будьте готовы что там полно бредового NSFW контента.
Возвращаясь к самым моделям, что бы совсем упростить, они больше как попугай, пытаются сгенерировать правдоподобный ответ из похожего в их памяти, инструкций и текущего контекста. Догадаетесь как разговор доходит до бреда, а точнее кто его доводит, а потому ужасается и обижается? Это и в случаи цензуры происходит, просто модель чрезмерно обучена на этом, потому «тригерится» в самых неожиданных местах.
З.ы. Самый просто способ проверить то, насколько модели, на самом деле, тупые и не умеют думать(в привычном нам понимании) — протестировать их в текстовых приключениях, или на подобном материале с уникальными вещами или ситуациями. Они там буквально начинают лажать через раз, а иногда «забывать» то что было в предыдущем сообщении, игнорить контекст и прочее.
И да, у многих моделей она протекает со всех щелей, как и многие другие бзыки.
Плюс модель натренирована отвечать коротко.
Если строго определить роль персонажа и сказать что бы он был инкузивным + запретить отклонятся — может даже и норм будет(хотя, сильно сомневаюсь, т.к. почти все 2-4б модели — тупые в диалогах). А еще, шаг влево-право — тригернеться способность любых моделей быть «безопасными и безопасными», или галюны. Потому, не совсем понимаю как их можно будет использовать в каких-то сценариях с жестокостью и подобным.
З.ы. У меня, к примеру, более крупная модель Немо, умудрялась в одном тестовом сценарии(в одном месте) и расизм приплести, и то что женщины гораздо менее виновны чем мужчины, и всунуть теорию пробуждения, или как она там называется. И это все про связанных гоблинов, и их лидершу, которые 3 секунды назад пытались, почти успешно, ГГ свежевать, сварить да сожрать. На минуточку, эта модель считается самой не зацензурной.
Я вон пробовал и 16 и 32 Немо — они чуточку лучше чем 32>16>q8, но я же не втираю что потребительские карты — недокарты, фи и ололо, потому что мне 16 или 32 нравится больше. Я, к примеру, сейчас тестю q6 ламму кастомную, и она вменяемей понимает запрос чем стандартный q8, ещё и весит немного меньше, но это не означает что она на всех задачах такая.
По поводу контекста… Не знаю как сейчас, но раньше 2к контекста занимало около 0.54 гиг, т.е. 4 — 1.08, 8-2.16, 16-4.32гб и т.д.
Итого, 12.12+2.16 для 8к + *память зарезервированная виндой, если винда*.
К слову, у Seraph она не должна поместиться в память, но что-то не сильно страдает, видимо...
К слову если человек не генерит новеллы или тонну кода, ему и 10 токенов генерации+стриминг хватит с головой, там главное что бы изначальная строка обрабатывалась быстро, и когда контекст вытесняться начнет -тоже. В такую скорость умеют современные цп, а вот со стартовой обработкой и т.д. даже у крутых серверных — беда, но там слитие любого количества слоев — помогает.
З.ы. Если уж на то пошло, хочется именно ллм крутить — полно ультра-бюджетных вариантов с 16-24гигами. В казуальном же сегменте, объем памяти — вообще не решает, т.к. гибко всё и зависит от многих факторов. Даже на тормозном 5600, без видика, можно спокойно q8 использовать для чата с краткими ответами, если устраивает 4 токена скорости.
Вообще, есть доказанный факт — если вы хотите работать с ИИ много и разно, пробовать новинки без танцев с бубном, то вам к нвидиа.
Если вам модельки крутить(может быть немного медленней, но не факт), или потанцевать изредка, или не нужна уж прямо большая срочность — АМД тут имеет много преимуществ с точки зрения цены и объема. А с 7й серией, вышеупомянутых «проблем» АМД — еще меньше. Да и софт достаточно быстро улучшается и поддержка.
З.ы. И конечно же, опубликовалось это, почему-то, под чужим ответом…
А так то, ни одна карта без костылей нормальную кадровую частоту не обеспечивает в этой игре.
З.ы. АМД обещала выпустить схожую функцию по увеличению кадровой частоты — но описанные сроки уже профукала, и когда её внедрит — тоже не понятно(если я, конечно, что-то не пропустил).
И стоить в 2 раза дороже… Но… У него все так же будут дрейфовать стики, потому что недорогие не убиваемые стики на датчиках Холла или чем еще им создать в лом…