По работе появилась идея, сделать чат бота в виде нейросети, который бы знал все наши нюансы работы и подсказывал бы что и как делать в той или иной ситуации - то есть задаешь вопрос простыми словами, а он говорит что можно сделать. для этого нужно скормить ему все журналы с ситуациями и инструкцими за несколько лет, чтобы он знал на что опираться. Все это это можно проделать только запустив нейронку локально. Изначально у меня вообще не было понимания как это делать, но пообщавшись опять же с нейронкой я кое-что понял, обзавелся своими нейронными связями, так сказать. Поэтому хочу поделиться важным опытом.
Почему важным - потому что нейронка подсказывает не совсем то что может хорошо, она знает только то что в нее положили, на каких данных обучилась, причем от качества обучения тоже зависит - я знаю о чем говорю, я пытался обучить (вообще нет, это RAG, но почти тоже самое) ее своим знаниям и он плохо это понимает. В общем изначально меня повели в дебри, но то было еще и потому что задача стояла изначально совсем другая, сейчас я понимаю что нужно было начинать с вопроса запуска нейронки локально при моих вводных(конкретно ноут с виндой с картой 1650). Вот сейчас в онлайн режиме проверю свою догадку, посоветует ли лучший вариант или нет:
Я бы хотел запустить нейросеть локально на своем ПК. у меня стоит на нем 2 системы windows 10 и ubuntu, предпочтительнее виндовз. Карта на ноуте 1650. хотелось бы узнать какие неросети LLM можно запустить чтобы работало быстро и хорошо
И она посоветовала то что мне нужно, я удивлен. Это нейросеть Zai - китайская и работает бесплатно. Я чаще пользуюсь qwen - но там у меня уже слишком много контекста в соседних чатах, думаю он опять поведет по ложному следу. В общем я дошел своими силами и теперь при помощи Zai до того что нужно использовать LM Studio - в ней автоматически предлагаются доступные модели которые будут работать хорошо, и в моем случае нейронка правильно ответила что для 4гб памяти лучше выбирать 4b - 4 млрд параметров. Но начну по порядку как я дошел до этого
Изначально так как я хотел скормить журналы с работы нейросети, она предложила использовать Питон и кучу разных библиотек, в питоне почему-то пошла по принципу компилирования библиотек для llamacpp - была куча ошибок, пришлось выкачивать гигабайты всякой хрени просто чтобы запустиьт нейронку. Потом я плюнул и спросил что-то проще, она посоветовала опять не LMstudio а ollama - по сути тоже норм, но там формат скаченной нейронки не gguf - сложнее перенести с машины на машину. В общем по итогу пришел к LM studio. Можно еще кстати довольно просто и главно это даже занимает меньше места и ресурсов запустить llamacpp из скомпилированных exeшников - качать последний релиз (vulkan) - и запускать gguf файл из cmd:
llama-server -m "C:\путь до нейронки\Qwen3-4B-Instruct-2507-Q4_K_M.gguf" --jinja -c 4096 --host 0.0.0.0 --port 8080 --flash-attn on --kv-offload
запускается вебсервер и по адресу 127.0.0.1:8080 - откроется чат с нейронкой. Я протестировал на своей системе vulkan, cuda12, cuda13, cpu - лучше всего вулкан, около 10токенов в секунду, отальные 5-7 - это довольно медленно. Возможно я не правильные флаги добавляю, позаимствовал их у одного знакомого. Надо проверить другие.
Однако, я нестировал и LM studio, и ровно эта же модель выдавала уже 30-39 токенов в секунду (почему второй раз быстрее еще не понял) - это уже очень хороший результат - довольно быстро. На малых моделах 1,7b - скорость на моей карте была до 99т/с - это прям супер шустро, но получалась фигня - вот таблица тестов которые я проводил, у всех один запрос:
мне нужна веб страница на html, css и js которую можно сохранить одним файлом index.html и открыть его в браузере. Приложение содержит три поля для ввода чисел и должно автоматически вычислять пропорцию: результат = (число3 * число2) / число1 сами поля распологаются в виде таблицы из двух строк и двух столбцов:
число1 - число2
число3 - результат
если калькулятор считает правильно и выглядит так как я ожидал, то нейронка справилась и оценка хорошо. В скобках количество токенов в секунду. +- - дополнительные очки за скорость, визуал, либо снятие если кнопка посчитать а не авто посчет, хотя такое решается быстро уточняющими запросами, но тем не менее. остановился пока на qwen3 instruct. нужно проверить
UPD: в общем выяснилось что нужно запускать llamacpp с другими флагами, и тогда она дает те же 40 токенов, а то и больше. поэтому очень важно обратить на это внимание, но это лишь еще раз доказывает мое предположение, что для новичка без заморочек лучше LMstudio - это и запуск без заморочек, это и предложенные модели для вашей системы, кроме того чат в браузере тоже доступен, нужно в настройках сервера включить CORS - это важно.
И да флаги для зупасука llama на моей машине выглядят так:
llama-server -m C:\model\Qwen3-4B-Instruct-2507-Q4_K_M.gguf -ngl 99 -c 4096 --host 0.0.0.0 --port 8080
UPD2: добавил прикол в начале - классика жанра: могу печатать 1000 символов в минуту, но такая хрень получается. Не ожидал что нейронка может выдавать такой отборный бред. Это модель GLM4.7-Distill-LFM2.5-1.2B.i1-Q6_K - пожалуй для супер малых моделей нужно добавить свой тест - но тот же lfm 2.5 в моем тесте выдал не супер ужасный результат - эта конечно никуда не годится
UPD3: конечно нужно выбирать правильные модели под свои задачи. пока что лучше всего qwen3, думаю покачаю еще пару штук и потестирую, потом потестирую в убунту, скажу результат, предположительно скорость должна быть выше.
В общем убунту не сильно быстрее, llamacpp - те же +-40 токенов в секунду, причем независимо от от того запущена оболочка или нет. хотя может опять что-то не то делаю. Потому что выяснилось чтобы заработали cuda нужно ставить еще одну утилиту (CUDA Toolkit) (источник) а проверить смогут ли куда заработать или нет, есть такая команда:
.\llama-server.exe --list-devicesУ меня на винде с 13 версией эта команда сработала, выдает информацию что видит, но при запуске модели выдает ошибку и можель не запускается. Попробую через линукс. И еще раз скачаю последние версии.Вот что у меня показывает:
C:\llama\cuda13>.\llama-server.exe --list-devices
ggml_cuda_init: found 1 CUDA devices:
Device 0: NVIDIA GeForce GTX 1650, compute capability 7.5, VMM: yes
The following devices will have suboptimal performance due to a lack of tensor cores:
Device 0: NVIDIA GeForce GTX 1650
Consider compiling with CMAKE_CUDA_ARCHITECTURES=61-virtual;80-virtual and DGGML_CUDA_FORCE_MMQ to force the use of the Pascal code for Turing.
load_backend: loaded CUDA backend from C:\llama\cuda13\ggml-cuda.dll
load_backend: loaded RPC backend from C:\llama\cuda13\ggml-rpc.dll
load_backend: loaded CPU backend from C:\llama\cuda13\ggml-cpu-haswell.dll
Available devices:
CUDA0: NVIDIA GeForce GTX 1650 (4095 MiB, 3041 MiB free)
кстати им на винде есть команда nvidia-smi, а чтобы запустить в режиме сканирования нужно ввести
nvidia-smi -l 1Добавляю более сложный тест нейросети, которым я занимался до этого и удивительно но есть нейросети, способные с первого раза сделать все очень красиво (claude-opus-4-6). Естественно локальные модели на такое вряд ли способны:
нужно разработать игру mastermind для удобного игрового процесса на мобильном устройстве. нужно сделать 6 развноцветных кругов которые будут добавляться в игровую зону просто по клику на круге, заполняя игровую зону последовательно друг за другом, что означает что если щелкнул например красный круг первым, то он встает в угадываемую последовательность на первое место. 6 разноцветных кругов расположить в 2 строки по 3 в ряд. В верхней строке в правой части должна быть кнопка проверить, во второй строке кнопка убрать, чтобы убрать последний добавленный кружок. Внизу страницы кнопка новая игра и помощь с инструкцией к игре. Угадываемые последовательности цветов в игровой зоне нужно заполнять сверху вниз в игровой зоне, это означает что последняя угадываемая последовательность цветов должна находиться всегда внизу, прикреплена к нижнему краю игрового поля. Попытки пронумеровать и расположить так чтобы первая была вверху, последняя внизу. Нужно добавить полосу прокрутки в игровом поле чтобы можно было прокрутить до первой попытки. при победе выдавать сообщение с количеством попыток и просмотром правильной комбинации Нужно использовать только javascript html и css - все в одном файле чтобы запустить локально
если у кружки нет дна и у нее запаян верх, то можно ли пить из такой кружки?





