По работе появилась идея, сделать чат бота в виде нейросети, который бы знал все наши нюансы работы и подсказывал бы что и как делать в той или иной ситуации - то есть задаешь вопрос простыми словами, а он говорит что можно сделать. для этого нужно скормить ему все журналы с ситуациями и инструкцими за несколько лет, чтобы он знал на что опираться. Все это это можно проделать только запустив нейронку локально. Изначально у меня вообще не было понимания как это делать, но пообщавшись опять же с нейронкой я кое-что понял, обзавелся своими нейронными связями, так сказать. Поэтому хочу поделиться важным опытом.
Почему важным - потому что нейронка подсказывает не совсем то что может хорошо, она знает только то что в нее положили, на каких данных обучилась, причем от качества обучения тоже зависит - я знаю о чем говорю, я пытался обучить (вообще нет, это RAG, но почти тоже самое) ее своим знаниям и он плохо это понимает. В общем изначально меня повели в дебри, но то было еще и потому что задача стояла изначально совсем другая, сейчас я понимаю что нужно было начинать с вопроса запуска нейронки локально при моих вводных(конкретно ноут с виндой с картой 1650). Вот сейчас в онлайн режиме проверю свою догадку, посоветует ли лучший вариант или нет:
Я бы хотел запустить нейросеть локально на своем ПК. у меня стоит на нем 2 системы windows 10 и ubuntu, предпочтительнее виндовз. Карта на ноуте 1650. хотелось бы узнать какие неросети LLM можно запустить чтобы работало быстро и хорошо
И она посоветовала то что мне нужно, я удивлен. Это нейросеть Zai - китайская и работает бесплатно. Я чаще пользуюсь qwen - но там у меня уже слишком много контекста в соседних чатах, думаю он опять поведет по ложному следу. В общем я дошел своими силами и теперь при помощи Zai до того что нужно использовать LM Studio - в ней автоматически предлагаются доступные модели которые будут работать хорошо, и в моем случае нейронка правильно ответила что для 4гб памяти лучше выбирать 4b - 4 млрд параметров. Но начну по порядку как я дошел до этого
Изначально так как я хотел скормить журналы с работы нейросети, она предложила использовать Питон и кучу разных библиотек, в питоне почему-то пошла по принципу компилирования библиотек для llamacpp - была куча ошибок, пришлось выкачивать гигабайты всякой хрени просто чтобы запустиьт нейронку. Потом я плюнул и спросил что-то проще, она посоветовала опять не LMstudio а ollama - по сути тоже норм, но там формат скаченной нейронки не gguf - сложнее перенести с машины на машину. В общем по итогу пришел к LM studio. Можно еще кстати довольно просто и главно это даже занимает меньше места и ресурсов запустить llamacpp из скомпилированных exeшников - качать последний релиз (vulkan) - и запускать gguf файл из cmd:
llama-server -m "C:\путь до нейронки\Qwen3-4B-Instruct-2507-Q4_K_M.gguf" --jinja -c 4096 --host 0.0.0.0 --port 8080 --flash-attn on --kv-offload
запускается вебсервер и по адресу 127.0.0.1:8080 - откроется чат с нейронкой. Я протестировал на своей системе vulkan, cuda12, cuda13, cpu - лучше всего вулкан, около 10токенов в секунду, отальные 5-7 - это довольно медленно. Возможно я не правильные флаги добавляю, позаимствовал их у одного знакомого. Надо проверить другие.
Однако, я нестировал и LM studio, и ровно эта же модель выдавала уже 30-39 токенов в секунду (почему второй раз быстрее еще не понял) - это уже очень хороший результат - довольно быстро. На малых моделах 1,7b - скорость на моей карте была до 99т/с - это прям супер шустро, но получалась фигня - вот таблица тестов которые я проводил, у всех один запрос:
мне нужна веб страница на html, css и js которую можно сохранить одним файлом index.html и открыть его в браузере. Приложение содержит три поля для ввода чисел и должно автоматически вычислять пропорцию: результат = (число3 * число2) / число1 сами поля распологаются в виде таблицы из двух строк и двух столбцов:
число1 - число2
число3 - результат
если калькулятор считает правильно и выглядит так как я ожидал, то нейронка справилась и оценка хорошо. В скобках количество токенов в секунду. +- - дополнительные очки за скорость, визуал, либо снятие если кнопка посчитать а не авто посчет, хотя такое решается быстро уточняющими запросами, но тем не менее. остановился пока на qwen3 instruct. нужно проверить
UPD: в общем выяснилось что нужно запускать llamacpp с другими флагами, и тогда она дает те же 40 токенов, а то и больше. поэтому очень важно обратить на это внимание, но это лишь еще раз доказывает мое предположение, что для новичка без заморочек лучше LMstudio - это и запуск без заморочек, это и предложенные модели для вашей системы, кроме того чат в браузере тоже доступен, нужно в настройках сервера включить CORS - это важно.
И да флаги для зупасука llama на моей машине выглядят так:
llama-server -m C:\model\Qwen3-4B-Instruct-2507-Q4_K_M.gguf -ngl 99 -c 4096 --host 0.0.0.0 --port 8080
UPD2: добавил прикол в начале - классика жанра: могу печатать 1000 символов в минуту, но такая хрень получается. Не ожидал что нейронка может выдавать такой отборный бред. Это модель GLM4.7-Distill-LFM2.5-1.2B.i1-Q6_K - пожалуй для супер малых моделей нужно добавить свой тест - но тот же lfm 2.5 в моем тесте выдал не супер ужасный результат - эта конечно никуда не годится
UPD3: конечно нужно выбирать правильные можели под свои задачи. пока что лучше всего qwen3, думаю покачаю еще пару штук и потестирую, потом потестирую в уюунту, скажу результат, предположительно скорость должна быть выше.





