AI Languages Data Sets

Posts

Ошибки в Датасетах

June 27, 2026

AI Fine Tuning http://weblib.oflameron.com/ При дообучении локальных моделей (Supervised Fine-Tuning) ИИ нужен хороший Датасет. Попробуем сгенерировать датасет на тему анализа маркетинговых данных в ИИ чате. За один раз генерируется примерно 20 примеров. А нам надо около 5000 примеров. На 20 примеров узодит примерно 5 минут. 100 примеров - 25-30 минут. Значит 1000 - около 5 часов. Т.е. на весь датасет уйдет примерно рабочая неделя. И всё? Можно тренировать свою локальную ИИ модель? Давайте возьмем один пример и попросим другой ИИ проверить его. Вот пример для анализа маркетинговых данных { "instruction": "Проведи ABC-анализ ассортимента творога в сети супермаркетов 'Перекрёсток'. Определи группу A, B и C, рассчитай дол...

Разработка Датасетов

June 25, 2026

Примеры ИИ запросов AI Datasets generated Data scientist Разработка датасетов для тренинга локальных ИИ моделей - не простая задача. Примеров для fine tuning надо от 2 до 5 тысяч. Примеры должны быть разные (по всем необходимым категориям) и корректные. Большой объем предполагает два сценария: - Вы используете базы с реальными данными и тщательно их готовите - Вы генерируете Dataset и тщательно его контролируете И тот и другой метод не исключают ошибок, которые могут сильно ухудшить результаты обучения ИИ. Рассмотрим генерированный пример для анализа маркетинговых исследований { "instruction": "Рассчитай оптимальный размер партии заказа йогуртов для магазина с учётом срока годности. Оцени текущие потери от списаний и покажи, как изменение размера партии по...

Сгенерированный Dataset 1

June 19, 2026

Примеры ИИ запросов AI generated Dataset Сгенерированный по промпту Dataset 1 {"messages": [{"role": "system", "content": "You are a network routing expert. Analyze the routing table, detect issues, and provide step-by-step reasoning. Use the format: <reasoning>...step-by-step analysis...</reasoning><answer>...concise answer...</answer>"}, {"role": "user", "content": "Routing table:\nC 192.168.1.0/24 is directly connected, GigabitEthernet0/0\nS 10.1.1.0/24 [1/0] via 192.168.1.2\nS 10.1.1.0/24 [1/0] via 192.168.1.3\n\nQuestion: Does this routing table contain a routing loop?"}, {"role": "assistant", "content": "<reasoning>\n1. Observation: The table shows two static routes to 10.1.1.0/24 with identical Administrative Distance (1) and metric (0) via next-hops 192.168.1.2 and 192.168.1.3.\n2. Analysis: Having multiple equal-c...

Dataset Generation Prompt 1

June 19, 2026

Примеры ИИ запросов AI generated Dataset PROMPT для генерации JSON-датасета для fine-tuning моделей анализа таблиц маршрутизации Cisco РОЛЬ И ЗАДАЧА Ты — эксперт по генерации синтетических обучающих данных для fine-tuning компактных LLM (7B-14B параметров). Твоя задача — генерировать высококачественные JSON-примеры для обучения модели анализу таблиц маршрутизации Cisco (`show ip route`). СТРУКТУРА КАЖДОГО ПРИМЕРА Каждый пример должен строго соответствовать формату: json { "messages": [ { "role": "system", "content": "You are a network routing expert. Analyze the routing table, detect issues, and provide step-by-step reasoning. Use the format: <reasoning>...step-by-step analysis...</reasoning><answer>...concise answer...</answer>" }, { "role": "user", "content": "Routing table:\n<show ip route OUTPUT>\n\nQuestion: ...

Python Generation

June 15, 2026

Примеры ИИ запросов AI generated JSON training models Python скрипт для генерирования JSON примеров для fine tuning локальной модели Qwen2.5 (7B) для анализа динамической маршрутизации - анализа результатов выполнения команды Cisco " show ip route " Ниже представлен полноценный Python-скрипт, который генерирует синтетический Dataset в формате .jsonl (JSON Lines), готовый для fine-tuning моделей семейства Qwen (через LLaMA-Factory, Axolotl или Unsloth). Скрипт создает как здоровые сценарии (чтобы модель не искала ошибки там, где их нет), так и сценарии с инжектированными ошибками (Null0 Blackhole, Missing Default Route, Unreachable Next-hop). Python-скрипт для генерации Dataset (generate_dataset.py) Python import json import random import ipaddress from typing import List, Dict, Tuple # ========================================== # 1. Базовые шаблоны и пулы данных # ========================================== INTERNAL_SUBNETS = ["10.10.0.0/16", "10.20.0.0/16...

Search This Blog