Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики.
Продолжая посещать сайты проектов вы соглашаетесь с нашей
Политикой в отношении файлов cookie
102211658345848518222@google
Комментатор
Ivan Peshkov
Рейтинг
+3.10
Автор не входит в состав редакции iXBT.com (подробнее »)
- ← предыдущая
- 1
- 2
- 3
- последняя
- следующая →
Не нужна тебе такая машина, брат
Но для того, чтобы крупная нейросеть работала хорошо, ей не столько NPU нужны, вместо него может отработать и встройка, сколько пропускная способность памяти. Причем именно в потребительской машинке.
Собственно, именно так работают LLM на технике Apple, и надо сказать, что работают они довольно неплохо. Никакой «магии Apple», «преимуществ ARM» или «божественного NPU» там нет, тупо высокая ПСП и всё.
+20 к скорости на трассе просто приводят к тому, что вешают ограничение на 20км/ч ниже того, что на самом деле подразумевают. При этом если ты поедешь те самые +20, и столкнёшься с тем, кто едет в пределах ограничения, то тебя запросто сделают виновным, ведь нештрафуемость нарушения не отменяет самого факта нарушения.
А в городах от этих +20 вообще беда. Дебилы валят 40км/ч там, где нужно 20км/ч, рано или поздно сбивая людей насмерть там, где в случае соблюдения правил можно вообще успеть остановиться до наезда и предотвратить катастрофу вообще.
Моё мнение — лучше перевесить знаки и ввести тоталитарные +5. Или ХОТЯ БЫ авторитарные +10, как в Беларуси и Казахстане.
Либо, как вариант, можно ввести плавающий порог, превратив 20км/ч везде и всюду в 20% от ограничения. То есть под знаком 20 можно будет ехать только 24, а под знаком 80, уже до 95 разогнаться можно. Чтобы в черте города сильно ужесточить ограничения но оставить запас под обгоны на шоссе. Сама необходимость рассчитать нештрафуемый порог привет к тому, что он перестанет восприниматься как классическое руководство к действию «вижу 40, еду 60, вижу 60, еду 80».
Во-вторых, далеко не каждая LLM — это монстр на 200-300 миллиардов активных параметров.
В-третьих, речь не про обучение, а про инференс.
Даже Apple M2 Ultra весьма бодро справляется с 70B плотными и даже с 8x22B s-moe моделями, а уж со всякими 8х7B — и подавно. Да, 300 токенов в секунду на вывод так не получить, но столько обычно и не нужно, когда человек читает от силы 10. Есть, конечно, свои шероховатости — например, обработка контекста там не очень шустрая, но с этим можно работать, это можно допиливать, и не всегда это проблема. В целом, яблочная встройка нормально справляется с умножением матриц, и производительность бэкенда по большей части упирается именно в пропускную способность памяти.
И прежде, чем кто-нибудь начнет боготворить ARM — речь именно о Metal в инференсе с помощью LlamaCPP, то есть все работает на яблочной встройке. ЦП там либо откровенно слаб, либо даже сам Герганов не понимает, как выжать из него производительность. А вот х86 это не касается. «Устаревший набор инструкций» тоже позволяет очень неплохо работать с нейросетями. Если на борту 8-12 каналов памяти, то даже самостоятельно, без помощи видеокарты вообще, хотя с ней, конечно, будет ещё быстрее. Epyc 7252 на 8 каналов DDR4 тоже упирается в ПСП. А ведь у него всего-то навсего один чиплет на 8 Zen-2 ядер. Единственная мощная часть этого процессора — настоящий серверный контроллер памяти.
Примерно так, кстати, поступили в Apple. Именно поэтому у М-чипов высокая пропускная способность памяти, а вовсе не из-за того, что чипы на плату запаяли.
А когда не пофиг, то как правило интересуют ИМЕННО ТЕ САМЫЕ болты и рисунки, не придуманные дешёвым апскейлером.
Жду дня, когда на такой телефон сделают фото с номерным знаком автомобиля настоящего нарушителя, а тот окажется искаженным нейронкой и похожим на ваш. После чего самый справедливый, но не самый технически подкованный суд в мире тупо лишит вас прав.
Ну или наоборот — вы сделаете фото преступника, который вас пытался ограбить, и его поймают, но он задоджит улику, заявив: изображение полностью отредактировано ИИ, и значит не может быть использовано как свидетельство чьей-либо вины.
Ну или мы чего-то не знаем. Может быть, оно заточено для компьютерного зрения или распознавания речи в реальном времени, а вовсе не для больших языковых нейросетей. Но тогда маркетинг должен быть по этой части, а не в духе «смотрите, у нас есть тысяча модулей, и с ними мы запустили LLaMA-70B»