Posts

Сценарий как Датасет

  Примеры ИИ запросов AI generated sci-fi scenario "Mission Oflameron" Для ддобучения компактных моделей ИИ для написания сценария проекта "Mission Oflameron" разработаем датасет с примерами на основе уже написанного материала https://github.com/vallshmeleff/ai-prompts-for-screenplay-plan Prompt к ИИ "Возможно ли дообучить компактные ИИ модели вроде Qwen2.5 (7B) для написания фрагментов сценария "MissionOflameron"?" Ответ ИИ Да, это абсолютно возможно и является отличным решением для такой творческой задачи. Модели размера 7B отлично поддаются дообучению (Fine-Tuning) под конкретный стиль, лор и формат сценария на обычном потребительском или доступном облачном оборудовании. Преимущества Qwen 2.5 (7B) для этой задачи Сильная база: Qwen 2.5 обладает отличным пониманием контекста и логики. Мультиязычность: Модель прекрасно работает с русским и английским языками. Длинный контекст: Поддерживает большие объемы текста, что важно для сценариев. Как реал...

Ошибки в Датасетах

  AI Fine Tuning  http://weblib.oflameron.com/ При дообучении локальных моделей (Supervised Fine-Tuning) ИИ нужен хороший Датасет.       Попробуем сгенерировать датасет на тему анализа маркетинговых данных в ИИ чате.       За один раз генерируется примерно 20 примеров. А нам надо около 5000 примеров.       На 20 примеров узодит примерно 5 минут. 100 примеров - 25-30 минут. Значит 1000 - около 5 часов. Т.е. на весь датасет уйдет примерно рабочая неделя.       И всё? Можно тренировать свою локальную ИИ модель?              Давайте возьмем один пример и попросим другой ИИ проверить его. Вот пример для анализа маркетинговых данных        { "instruction": "Проведи ABC-анализ ассортимента творога в сети супермаркетов 'Перекрёсток'. Определи группу A, B и C, рассчитай дол...

Разработка Датасетов

  Примеры ИИ запросов AI Datasets generated  Data scientist          Разработка датасетов для тренинга локальных ИИ моделей - не простая задача. Примеров для fine tuning надо от 2 до 5 тысяч. Примеры должны быть разные (по всем необходимым категориям) и корректные.     Большой объем предполагает два сценария:     - Вы используете базы с реальными данными и тщательно их готовите     - Вы генерируете Dataset и тщательно его контролируете          И тот и другой метод не исключают ошибок, которые могут сильно ухудшить результаты обучения ИИ. Рассмотрим генерированный пример для анализа маркетинговых исследований           { "instruction": "Рассчитай оптимальный размер партии заказа йогуртов для магазина с учётом срока годности. Оцени текущие потери от списаний и покажи, как изменение размера партии по...

Сгенерированный Dataset 1

  Примеры ИИ запросов AI generated Dataset Сгенерированный по промпту Dataset 1 {"messages": [{"role": "system", "content": "You are a network routing expert. Analyze the routing table, detect issues, and provide step-by-step reasoning. Use the format: <reasoning>...step-by-step analysis...</reasoning><answer>...concise answer...</answer>"}, {"role": "user", "content": "Routing table:\nC    192.168.1.0/24 is directly connected, GigabitEthernet0/0\nS    10.1.1.0/24 [1/0] via 192.168.1.2\nS    10.1.1.0/24 [1/0] via 192.168.1.3\n\nQuestion: Does this routing table contain a routing loop?"}, {"role": "assistant", "content": "<reasoning>\n1. Observation: The table shows two static routes to 10.1.1.0/24 with identical Administrative Distance (1) and metric (0) via next-hops 192.168.1.2 and 192.168.1.3.\n2. Analysis: Having multiple equal-c...

Dataset Generation Prompt 1

  Примеры ИИ запросов AI generated Dataset PROMPT для генерации JSON-датасета для fine-tuning моделей анализа таблиц маршрутизации Cisco РОЛЬ И ЗАДАЧА Ты — эксперт по генерации синтетических обучающих данных для fine-tuning компактных LLM (7B-14B параметров). Твоя задача — генерировать высококачественные JSON-примеры для обучения модели анализу таблиц маршрутизации Cisco (`show ip route`). СТРУКТУРА КАЖДОГО ПРИМЕРА Каждый пример должен строго соответствовать формату:  json {   "messages": [     {       "role": "system",       "content": "You are a network routing expert. Analyze the routing table, detect issues, and provide step-by-step reasoning. Use the format: <reasoning>...step-by-step analysis...</reasoning><answer>...concise answer...</answer>"     },     {       "role": "user",       "content": "Routing table:\n<show ip route OUTPUT>\n\nQuestion: ...

Python Generation

  Примеры ИИ запросов AI generated JSON training models Python скрипт для генерирования JSON примеров для fine tuning локальной модели Qwen2.5 (7B) для анализа динамической маршрутизации - анализа результатов выполнения команды Cisco " show ip route " Ниже представлен полноценный Python-скрипт, который генерирует синтетический Dataset в формате .jsonl (JSON Lines), готовый для fine-tuning моделей семейства Qwen (через LLaMA-Factory, Axolotl или Unsloth). Скрипт создает как здоровые сценарии (чтобы модель не искала ошибки там, где их нет), так и сценарии с инжектированными ошибками (Null0 Blackhole, Missing Default Route, Unreachable Next-hop). Python-скрипт для генерации Dataset (generate_dataset.py) Python import json import random import ipaddress from typing import List, Dict, Tuple # ========================================== # 1. Базовые шаблоны и пулы данных # ========================================== INTERNAL_SUBNETS = ["10.10.0.0/16", "10.20.0.0/16...