Мы используем файлы cookie и сервисы аналитики. Ознакомьтесь с нашей Политикой сбора данных и выберите, какие типы cookie вы разрешаете:
cookie_policy_accepted — хранит ваш выбор cookiePHPSESSID — сессияkey3 — запоминание входа_ix — единая сессия входа на ixbt.comadminuserskey — вход администратораtopic_add_autosave — автосохранение черновикаls_photoset_target_tmp — временные данные загрузки фотоgeo_country — определяет ваш регион_ga, _ga_*, _ym_uid, _ym_d, _ym_* — статистика посещений__gads, __gpi — таргетирование объявленийВы всегда можете изменить свои предпочтения в настройках.
Запомните раз и на всегда, на текущие нейронки вы НИКАК повлиять не можете в рамках их модели(не обучить, ни научить и подобное, а еще они не умеют думать и рассуждать, как люди). Единственное как ваш чат может попасть в нейроку, это когда разработчик его «сворует», после он пройдет модерацию и попадет в материалы для обучения следующей версии модели где,-то через пару месяцев-год(но для модели, грубо, это будет просто один из примеров, а не память о вас).
Подобие памяти влияющей на текущий разговор вы можете создать или увеличением контекста(доступное текстовое окно которое воспринимает ИИ) с добавлением всех разговоров в этот контекст, или используя суммаризацию разговора и скрытое добавлением, и не забываем про правильные инструкции(а может использование некоторых внешних инструментов и тригеров).
Это всё неумел чатГПТ(раньше, сейчас что-то подобное есть), и любая локальная модель — это не умеет из коробки.
Если вы хотите посмотреть как, примерно, такая «память» о вас может выглядеть в рамках контекста — просто поищите в интернете карточки персонажей для ролеплея с примерами диалогов и прочего, только будьте готовы что там полно бредового NSFW контента.
Возвращаясь к самым моделям, что бы совсем упростить, они больше как попугай, пытаются сгенерировать правдоподобный ответ из похожего в их памяти, инструкций и текущего контекста. Догадаетесь как разговор доходит до бреда, а точнее кто его доводит, а потому ужасается и обижается? Это и в случаи цензуры происходит, просто модель чрезмерно обучена на этом, потому «тригерится» в самых неожиданных местах.
З.ы. Самый просто способ проверить то, насколько модели, на самом деле, тупые и не умеют думать(в привычном нам понимании) — протестировать их в текстовых приключениях, или на подобном материале с уникальными вещами или ситуациями. Они там буквально начинают лажать через раз, а иногда «забывать» то что было в предыдущем сообщении, игнорить контекст и прочее.
И да, у многих моделей она протекает со всех щелей, как и многие другие бзыки.
Плюс модель натренирована отвечать коротко.
Если строго определить роль персонажа и сказать что бы он был инкузивным + запретить отклонятся — может даже и норм будет(хотя, сильно сомневаюсь, т.к. почти все 2-4б модели — тупые в диалогах). А еще, шаг влево-право — тригернеться способность любых моделей быть «безопасными и безопасными», или галюны. Потому, не совсем понимаю как их можно будет использовать в каких-то сценариях с жестокостью и подобным.
З.ы. У меня, к примеру, более крупная модель Немо, умудрялась в одном тестовом сценарии(в одном месте) и расизм приплести, и то что женщины гораздо менее виновны чем мужчины, и всунуть теорию пробуждения, или как она там называется. И это все про связанных гоблинов, и их лидершу, которые 3 секунды назад пытались, почти успешно, ГГ свежевать, сварить да сожрать. На минуточку, эта модель считается самой не зацензурной.
Я вон пробовал и 16 и 32 Немо — они чуточку лучше чем 32>16>q8, но я же не втираю что потребительские карты — недокарты, фи и ололо, потому что мне 16 или 32 нравится больше. Я, к примеру, сейчас тестю q6 ламму кастомную, и она вменяемей понимает запрос чем стандартный q8, ещё и весит немного меньше, но это не означает что она на всех задачах такая.
По поводу контекста… Не знаю как сейчас, но раньше 2к контекста занимало около 0.54 гиг, т.е. 4 — 1.08, 8-2.16, 16-4.32гб и т.д.
Итого, 12.12+2.16 для 8к + *память зарезервированная виндой, если винда*.
К слову, у Seraph она не должна поместиться в память, но что-то не сильно страдает, видимо...
К слову если человек не генерит новеллы или тонну кода, ему и 10 токенов генерации+стриминг хватит с головой, там главное что бы изначальная строка обрабатывалась быстро, и когда контекст вытесняться начнет -тоже. В такую скорость умеют современные цп, а вот со стартовой обработкой и т.д. даже у крутых серверных — беда, но там слитие любого количества слоев — помогает.
З.ы. Если уж на то пошло, хочется именно ллм крутить — полно ультра-бюджетных вариантов с 16-24гигами. В казуальном же сегменте, объем памяти — вообще не решает, т.к. гибко всё и зависит от многих факторов. Даже на тормозном 5600, без видика, можно спокойно q8 использовать для чата с краткими ответами, если устраивает 4 токена скорости.
Вообще, есть доказанный факт — если вы хотите работать с ИИ много и разно, пробовать новинки без танцев с бубном, то вам к нвидиа.
Если вам модельки крутить(может быть немного медленней, но не факт), или потанцевать изредка, или не нужна уж прямо большая срочность — АМД тут имеет много преимуществ с точки зрения цены и объема. А с 7й серией, вышеупомянутых «проблем» АМД — еще меньше. Да и софт достаточно быстро улучшается и поддержка.
З.ы. И конечно же, опубликовалось это, почему-то, под чужим ответом…
А так то, ни одна карта без костылей нормальную кадровую частоту не обеспечивает в этой игре.
З.ы. АМД обещала выпустить схожую функцию по увеличению кадровой частоты — но описанные сроки уже профукала, и когда её внедрит — тоже не понятно(если я, конечно, что-то не пропустил).
И стоить в 2 раза дороже… Но… У него все так же будут дрейфовать стики, потому что недорогие не убиваемые стики на датчиках Холла или чем еще им создать в лом…