Я просто все еще в шоке с того что на локальном ПК можно запустить локальные нейрости и они будут работать вполне неплохо. Как минимум тот тест что я придумал для них они уже проходят довольно легко. Допустим я проводил не так давно тест больших нейронок на своем запросе про mastermind https://pikabu.ru/story/sdelal_igru_mastermind_pri_pomoshchi_besplatnyikh_neyrosetey_13733435
Там я писал как все начиналось и первую игру делал сам, потом вторую игру делал в qwen в прошлом году в августе 3 дня, потом я придумал неплохой промпт для того чтобы получить что-то похожее, и когда скормил его на ai arena то получил сходу готовую к употреблению игру при помоще клод 4.6. В тот момент я понял что нейросети продвинулись очень вперед и могут делать это за один запрос. Тогда я сделал тест бесплатных нейронок, и результат этого теста описал в той статье. Все это время я не терял надежды получить похожий результат на локальных LLM и вот сейчас это пишу потому что смог этого добиться - когда вышел квен 3.5 один раз (из нескольких) он мне сделал играбельную игру и почти без доработок (вообще доработать в локальной llm будет наверное та еще боль, в ней я запускаю с контекстом 8000-18000 то есть сильно не развернуться - допустим в первый раз где доделывал 3 дня я наверняка потратил с полмиллиона контекста, хотя и хз, уже и не узнать)
В общем qwen 3.5 9b справился, а потом справился и gemma-4-E4B-it-UD-Q4_K_XL.gguf - они выдали результат в который уже можно игграть и который для доработки требуети пару исправлений которые я и сам смог сделать - настолько мелочь. дабы было нагляднее вот первый вариант: там требовалось доработка потому что кнопка убрать работала не корректно, а еще не отображались текущие цвета - серый цвет перекрывал их:

Вот результат работы qwen3.5-9B-UD-Q4_K_XL.gguf (кстати обращаю внимание на квантование UD - это улучшенный способ - модели с таким квантом имеют лучше характеристики при равном объеме, рекомендую):
Как видно тут требуется сильно больше доработок, но даже в таком виде играть можно - к
руги снизу не круги, попытки не пронумерованы, и неприлипают к низу. плюс до кучи стремное выравнивание (в тз не обговаривалось но желательно делать нормально все же), кнопка убрать не работает. заняло это даже больше времени, и токенов, скорость пониже:
обе запускались с параметром -ngl 99
Дальше для меня было открытием что локально можно запустить что-то действительно стоящее - модели на 26 млрд параметров и 35 - это уже прям совсем другой уровень. Это МОЕ модели - у них есть не полностью активны параметры, допустим в gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf их 4 млрд (A4B) скорость вполне неплохая, а результат можно очень достойный - косяк только один (сортировка, исправляется одной строкой) но выглядит сильно лучше:
Вот так это в скорости:Ну и на последок еще большее откровение, модель 35 мрд параметров (3млрд активных) Qwen3.6-35B-A3B-UD-Q4_K_XL.ggufСамый лучший вид, и единственный косяк не прилипает к низу. Кстати на картинке угадал послетовательность, если бы не угадал нужно было ьы поменять местами оранжевый и зеленый. И скорость выше:Эти модели запускал с супер ограниченным контекстом 8000 - этого достаточно для этой игры, как видим. но опять же для этих моделей. и еще их запускал без флага -ngl потому что с ним скорость вообще плахая. llama cpp сейчас такая навороченная что сама неплохо справляется в автомате. Такая скорость это очень даже не плохо. 3 минуты даже чай не успеет вскипеть а у вас уже готова игра. Но конечно если вы потратили кучу итераций для вылизывания первого сообщения.
Из больших моделей у меня запустилась еще GLM-4.7-Flash-REAP-23B-A3B-UD-Q4_K_XL.gguf:
И вот такие накладные расходы: Когда я говорю о контексте 8000 - это не всегда достаточно, вот пример из недавнего, эта нейронка вообще не справилась с моей задачей, затратив при этом 12000 контекста - результат удручает, хотя и скорость классная:
Но нужно понимать что это модель 4b - то есть сравнивать ее с 8b,9b,23b,26b, и тем более 35b не коррекно, что впрочем не отменяет факта что 4b qwen у меня однажды выдал играбельный результат потратив те же стандартные 6-7тыс токенов, а скорость... 4b всегда такая вроде, надо затестить и сюда запостить. на этом пожалуй все. В следующей серии расскажу как запустил свой MCP сервер в LLama CPP который ищет в базе данных - для некоторых задач сгодится, но это уже другая история
ЗЫ Думаю нужно рассказать про мою сборку. Запускал я все это дело на RTX3070 8 ГБ + 32 ОЗУ, Ubuntu. На винде были примерно такие же показания когда я тестировал до этого другие тесты, но можно посвторить. Проблема в том что в какой-то момент моя винда перестала запускать нейронки локально - просто тупо не запускает и все.
Ну да ладно, я же хотел рассказать о сайте калькулятор для запуска нейросетей: https://www.canirun.ai/device/rtx-3070?provider=Google (открывается через ВПН у меня)
На нем оно мне показывает что моя сборка выдает на gemma4 8b ~68t/s, в то время как у меня можно увидеть больше 75т/с. Это вполне возможно потому что они считают при контексте 256к, а я запускал при 18к. Однако я могу проверить их запуск, но заметил что при 256 llamacpp не запустилась, а вот при 128к запустилась и выдает теже 75т/с...В общем немного непонятно. И опять же они 35б пишут 4т/с но у меня 28 аж (но контекст 8000)- то есть что-то там с калькулятором не очень. Есть подозрение у меня что они учитывают только пропускную способность карты, для моей по спецификации ставят 448ГБ/с.
Почему я решил написать об этом. Все сильно нахваливают продукцию яблока - что дескать ноут с 64ГБ ОЗУ - это почти что те же ОЗУ что и на видеокарте - вот мне и стало интересно что по цифрам. Ну допустим 64 ГБ они пишут для m2 ultra - сейчас прям смотрю есть ПК и стоит аж 439 тысяч рублей. надо теперь проверить видеокарту на 64 гб... хаха, нет такой. Короче я хз. скомканный конец, но было бы интересно реальные тесты цена-качество. Допустим из бытовых видеокарт не имеется в принципе 64 гб - а вот есть топовая последняя 5090 на 32 - и модель 31b ляжет полностью в память и конечно там скорость будет больше просто потому что у аппле 800Гб/с по спецификации с того сайта, а у Нвидиа 1700 - 2х кратная. Цена даже дешевле, правда еще ПК нужен с другими штуками, а тот уже готовый... Ну посмотрим что ответит НВидиа - так-то сейчас скорость памяти не так важна, как ее объем. Ну мне так кажется. если можель выдает 25 т/с это уже приемлемая работа, с другой стороны, всегда хочется быстрее...
Пожалуй на этом я и закончу, а то уже философия ненужная.









Комментариев нет:
Отправить комментарий