[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-77822":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":9,"language":9,"languages":9,"totalLinesOfCode":9,"stars":10,"forks":11,"watchers":12,"openIssues":13,"contributorsCount":13,"subscribersCount":13,"size":13,"stars1d":14,"stars7d":15,"stars30d":16,"stars90d":13,"forks30d":13,"starsTrendScore":17,"compositeScore":18,"rankGlobal":9,"rankLanguage":9,"license":9,"archived":19,"fork":19,"defaultBranch":20,"hasWiki":21,"hasPages":19,"topics":22,"createdAt":9,"pushedAt":9,"updatedAt":23,"readmeContent":24,"aiSummary":25,"trendingCount":13,"starSnapshotCount":13,"syncStatus":26,"lastSyncTime":27,"discoverSource":28},77822,"MachineLearningRoadmap","justxor\u002FMachineLearningRoadmap","justxor","Полный Roadmap по машинному обучению 2026 ",null,252,48,3,0,7,31,141,29,5.07,false,"main",true,[],"2026-06-12 02:03:44","# 🤖 Machine Learning Roadmap: от базы до гуру вайбкодинга\n\n> **Карта обучения машинному обучению (Machine Learning, Deep Learning, LLM, Generative AI, MLOps)** — от первого `import numpy` до уровня инженера, который понимает, **как ИИ работает внутри**, и может писать прод‑системы, а не только дёргать API.\n\n[![License: MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-yellow.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT)\n[![Roadmap](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FRoadmap-2025--2026-blue.svg)](#)\n[![Made for](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMade%20for-RU%20ML%20community-red.svg)](#)\n\n**Ключевые слова:** машинное обучение, глубокое обучение, ML roadmap, LLM, нейросети, PyTorch, transformers, RAG, AI агенты, MLOps, fine‑tuning, prompt engineering, vibe coding, generative AI, Hugging Face, дата‑сайентист, ML инженер, как стать ML инженером, обучение машинному обучению с нуля.\n\n---\n\nГлавный русскоязычный канал по ML\u002FAI\u002FBig Data — [**@ai_machinelearning_big_data**](https:\u002F\u002Ft.me\u002F+vgdHgaV7FuVmOTIy). Релизы моделей в день выхода, разборы статей с arXiv простым языком, готовый код, прод‑кейсы из Яндекса, Сбера, OpenAI, Anthropic, вакансии и бенчмарки. Если подписываетесь только на один ресурс по ИИ — пусть это будет он.\n\n---\n\n## ⚡ Быстрый старт: что сделать на этой неделе\n\nЕсли вы только зашли и не знаете, с чего начать — вот ровно 7 шагов на ближайшие 7 дней. Без них всё остальное в roadmap не сработает.\n\n1. **Поставьте Python 3.12+, VS Code (или Cursor), Git.** 30 минут.\n2. **Заведите GitHub-аккаунт и создайте репозиторий `ml-journey`.** В нём будут все ваши учебные проекты. 15 минут.\n3. **Зарегистрируйтесь на [Kaggle](https:\u002F\u002Fwww.kaggle.com)** и пройдите [Intro to Machine Learning](https:\u002F\u002Fwww.kaggle.com\u002Flearn\u002Fintro-to-machine-learning) (4 часа, бесплатно).\n4. **Подпишитесь на 3 канала из подборки ниже** — `@ai_machinelearning_big_data`, плюс 2 на выбор.\n5. **Откройте ноутбук Colab** и запустите свой первый `import torch; torch.tensor([1,2,3])`. Это снимает страх.\n6. **Запланируйте 10 часов в неделю в календаре** — конкретные слоты, не «как получится».\n7. **Расскажите кому-нибудь, что учитесь ML.** Соцсеть, друг, чат. Публичное обязательство работает.\n\n> 💡 Если вы сделали эти 7 шагов — поздравляю, вы уже впереди 80% тех, кто «собирается учить ML».\n\n---\n\n## 👥 Если вы… (3 типовых старта)\n\n**🧑‍💻 Если вы разработчик (2+ лет опыта):**\nПропускайте Python, идите сразу в математику (если её не было) и классический ML. Ваше преимущество — вы умеете писать код в проде. Сильная сторона на собеседовании — MLOps и интеграция моделей. Целевая позиция через 6 месяцев: **ML Engineer**, не Data Scientist.\n\n**🧑‍🎓 Если вы студент или меняете профессию:**\nИдите по roadmap последовательно. Не торопитесь, дайте 12 месяцев. Главное — портфолио и Kaggle-сабмиты. Целевая позиция: **Junior Data Scientist \u002F ML Engineer**. Стажировка в течение обучения почти обязательна.\n\n**🔬 Если вы из науки \u002F аналитики (физика, биология, экономика):**\nУ вас уже есть математика и работа с данными — это огромный плюс. Учите Python и инженерную часть (Git, Docker, FastAPI). Ваша ниша — **Research Engineer \u002F Applied Scientist**: позиции, где платят за глубокое понимание моделей, а не за «навайбкодить эндпоинт».\n\n---\n\n## 🪞 Честные ожидания: что вам не расскажут на инфо-курсах\n\nПрежде чем вкладываться в год обучения, прочитайте это. Эти 7 вещей сэкономят вам месяцы разочарования.\n\n1. **«ML за 3 месяца» — это маркетинг.** Реальный путь до уверенного джуна — 9–18 месяцев систематической практики. До мидла — ещё 1.5–2 года работы. Кто обещает быстрее — продаёт мечту, а не профессию.\n\n2. **80% работы — это не модели.** Это данные, ETL, SQL, споры с продуктом, документация и баги. Если любите только «обучать нейросети» — будете несчастливы в проде.\n\n3. **Хайп ≠ работа.** Большинство вакансий — это не GPT-агенты, а табличный ML, рекомендации, классификация, регрессия. Скучнее, чем в твиттере, но именно за это платят.\n\n4. **Математика нужна меньше, чем думают теоретики, и больше, чем хотят практики.** Не нужен матан уровня PhD. Нужны живые интуиции про градиент, вероятность, линал. Без них вы — «оператор библиотек».\n\n5. **Портфолио важнее диплома.** Никого не интересует, есть ли у вас сертификат Coursera. Интересует, что лежит на GitHub и что вы можете объяснить на собесе.\n\n6. **LLM не делает джунов сениорами.** Он делает джунов **продуктивнее**, но решения принимает человек. Без понимания основ вы превратитесь в «нажимателя Tab в Copilot», и это первое, что автоматизируют.\n\n7. **Выгорание реальное.** ML — марафон, где много отказов, тупиков и переделок. Без режима сна, спорта и отдыха вы выгорите за 6–12 месяцев и потеряете год.\n\n> 🎯 Хорошая новость: если знать всё это заранее и не строить иллюзий — путь становится **проще и предсказуемее**, чем у тех, кто верит инфо-цыганам.\n\n---\n\n## 🎯 TL;DR\n\nЭтот roadmap — не «список курсов на год». Это **карта местности**, по которой вы прокладываете свой маршрут. Цель — не «пройти курс», а **уметь делать**: тренировать модели, поднимать инференс, строить RAG, дообучать LLM, мониторить прод, понимать статьи и читать чужой код.\n\nОриентир по времени при ~10–15 часов в неделю:\n\n- **0–3 мес:** Python + математика + классический ML → первые модели на табличных данных.\n- **3–6 мес:** Deep Learning, CV, NLP → собственные нейросети на PyTorch.\n- **6–12 мес:** LLM, transformers, RAG, fine‑tuning, AI‑агенты → прикладные проекты.\n- **12+ мес:** MLOps, прод, scaling, специализация → джуниор → мидл уровень в реальной работе.\n\n---\n\n## 🗺️ Карта roadmap одним взглядом\n\nЭта диаграмма — общий вид пути. Стрелки показывают зависимости: что нужно знать, чтобы войти в следующий блок. Не маршрут «строго слева направо», а граф: блоки 4–6 можно проходить параллельно.\n\n```mermaid\nflowchart LR\n    A[Python + инструменты\u003Cbr\u002F>Git, Docker, IDE] --> B[Математика\u003Cbr\u002F>линал, матан, теорвер]\n    A --> C[NumPy \u002F Pandas \u002F SQL\u003Cbr\u002F>работа с данными]\n    B --> D[Классический ML\u003Cbr\u002F>scikit-learn, бустинг]\n    C --> D\n    D --> E[Deep Learning\u003Cbr\u002F>PyTorch, CNN, RNN]\n    E --> F[Трансформеры\u003Cbr\u002F>attention, GPT]\n    F --> G[LLM Engineering\u003Cbr\u002F>RAG, агенты, fine-tuning]\n    F --> H[Generative AI\u003Cbr\u002F>Diffusion, мультимодальность]\n    D --> I[MLOps\u003Cbr\u002F>Docker, K8s, мониторинг]\n    E --> I\n    G --> I\n    I --> J[Специализация\u003Cbr\u002F>NLP \u002F CV \u002F RecSys \u002F RL \u002F Safety]\n    G --> J\n    H --> J\n\n    classDef base fill:#e8f5e9,stroke:#2e7d32,color:#1b5e20\n    classDef ml fill:#fff8e1,stroke:#f57f17,color:#bf360c\n    classDef dl fill:#e3f2fd,stroke:#1565c0,color:#0d47a1\n    classDef prod fill:#fce4ec,stroke:#c2185b,color:#880e4f\n    classDef spec fill:#f3e5f5,stroke:#6a1b9a,color:#4a148c\n\n    class A,B,C base\n    class D ml\n    class E,F,H dl\n    class G,I prod\n    class J spec\n```\n\n> 💡 Читать диаграмму так: до DL не имеет смысла бросаться, пока не закрыта математика и Python. До LLM — пока нет понимания трансформера. MLOps можно начинать параллельно с любым DL-блоком, как только появится первая модель, которую хочется выкатить.\n\n## 🧭 5 правил выживания\n\n1. **Кода больше, чем теории.** Каждая тема закрывается своим артефактом: ноутбуком, репозиторием, демо.\n2. **Не учите всё сразу.** Один трек за раз. PyTorch **или** TensorFlow. LangChain **или** LlamaIndex. Потом второе.\n3. **Воспроизводите статьи руками.** Прочитал статью → реализовал упрощённую версию → понял. Без этого вы её не знаете.\n4. **Стройте портфолио с первого месяца.** GitHub, Hugging Face, технический блог. Без портфолио вас не наймут даже джуниором.\n5. **Метрика важнее модели.** Сначала придумайте, как измерить успех, потом обучайте. Иначе вы оптимизируете шум.\n\n---\n\n## ⏱️ Тайминг по фазам (10–15 ч\u002Fнед)\n\nРеалистичные ожидания: при 10–15 часах в неделю путь от нуля до уверенного джуна — 9–12 месяцев. До мидла — ещё год работы. Диаграмма ниже — ориентир, а не дедлайн: ваша скорость зависит от стартовой базы.\n\n```mermaid\ngantt\n    title Путь от нуля до мидла (~10–15 ч\u002Fнед)\n    dateFormat YYYY-MM-DD\n    axisFormat %b\n    section Старт\n    Python + инструменты         :done, 2026-01-01, 30d\n    Математика (база)            :active, 2026-01-15, 45d\n    section Базовый ML\n    Pandas \u002F EDA \u002F SQL           :2026-02-15, 30d\n    Классический ML + Kaggle     :2026-03-01, 45d\n    section Deep Learning\n    PyTorch, MLP, CNN            :2026-04-15, 45d\n    RNN, Attention, Transformer  :2026-05-15, 45d\n    section LLM и прод\n    LLM API, RAG, агенты         :2026-07-01, 60d\n    MLOps, Docker, мониторинг    :2026-08-01, 45d\n    section Работа\n    Портфолио + капстоун         :2026-09-01, 45d\n    Поиск работы, собесы         :2026-10-01, 60d\n```\n\n> 🎯 Если идёте интенсивнее (25+ часов в неделю), уплотните до 5–6 месяцев. С работой и семьёй — растяните до 18 месяцев. Главное — **не бросать**.\n\n## 🗺️ Структура: 7 треков\n\n| # | Трек | Что освоите | Длительность |\n|---|------|-------------|--------------|\n| 1 | **Фундамент** | Python, математика, статистика, инструменты | 4–6 нед |\n| 2 | **Классический ML** | scikit‑learn, табличные данные, метрики, валидация | 4–6 нед |\n| 3 | **Deep Learning** | PyTorch, NN, CV, NLP, тренировочный цикл | 6–8 нед |\n| 4 | **LLM и трансформеры** | Внутренности GPT, fine‑tuning, RAG, агенты | 6–10 нед |\n| 5 | **Generative AI** | Diffusion, мультимодальность, prompt engineering | 4–6 нед |\n| 6 | **MLOps и прод** | Docker, K8s, CI\u002FCD, мониторинг, vLLM, serving | 4–6 нед |\n| 7 | **Специализация** | CV \u002F NLP \u002F RecSys \u002F RL \u002F Safety — на выбор | 8+ нед |\n\n---\n\n## 🧱 Трек 1 — Фундамент (Python + математика)\n\n**Цель:** перестать бояться формул и научиться писать код, который читают другие.\n\n**Темы:**\n\n- Python: типы, функции, классы, dataclasses, генераторы, `async\u002Fawait`, type hints.\n- Стек данных: `numpy`, `pandas`, `polars`, `matplotlib`, `seaborn`, `plotly`.\n- Математика: линейная алгебра (векторы, матрицы, SVD), производные, градиенты, цепное правило.\n- Теорвер и статистика: распределения, ЦПТ, MLE, доверительные интервалы, A\u002FB тесты, p‑value.\n- Инструменты: Jupyter, VS Code, Git, GitHub, виртуальные окружения (`uv`, `poetry`, `conda`).\n\n**Артефакт:** ноутбук с EDA на реальном датасете (Kaggle \u002F Open Data) + краткий отчёт «что я увидел в данных».\n\n**Готов к следующему треку, когда:**\n\n- Можете объяснить разницу между корреляцией и причинно‑следственной связью.\n- Не путаете `loc` и `iloc` в pandas.\n- Знаете, что такое градиент, и как он вычисляется для простой функции вручную.\n\n---\n\n## 📊 Трек 2 — Классический ML\n\n**Цель:** научиться решать задачи без нейросетей. Большинство реальных задач в индустрии — это табличные данные.\n\n**Темы:**\n\n- Подготовка данных: пропуски, выбросы, feature engineering, encoding, скейлинг.\n- Алгоритмы: линейная и логистическая регрессии, KNN, деревья решений, Random Forest, **градиентный бустинг (XGBoost, LightGBM, CatBoost)**.\n- Кластеризация и снижение размерности: K‑Means, DBSCAN, PCA, t‑SNE, UMAP.\n- Метрики: precision\u002Frecall\u002FF1, ROC‑AUC, PR‑AUC, MAE\u002FRMSE, MAPE — **и когда какую брать**.\n- Валидация: train\u002Fval\u002Ftest, K‑Fold, stratified, time‑series split, data leakage.\n- Интерпретируемость: feature importance, SHAP, partial dependence.\n\n**Артефакт:** end‑to‑end Kaggle‑соревнование (любое классическое — Titanic не считается). Финал — отчёт с метриками, ошибками модели и идеями улучшений.\n\n**Готов к следующему треку, когда:**\n\n- Понимаете, почему `ROC‑AUC` может вводить в заблуждение на дисбалансе.\n- Знаете, что такое data leakage, и 3 способа его словить.\n- Можете объяснить, почему градиентный бустинг бьёт нейросети на табличных данных.\n\n---\n\n## 🧠 Трек 3 — Deep Learning\n\n**Цель:** перестать смотреть на нейросети как на чёрный ящик. Уметь писать тренировочный цикл с нуля.\n\n**Темы:**\n\n- PyTorch: тензоры, autograd, `nn.Module`, `DataLoader`, `optimizer`, `loss`.\n- Базовые сети: MLP, CNN, RNN\u002FLSTM\u002FGRU.\n- Тренировочный цикл: train\u002Feval, чекпоинты, ранняя остановка, learning rate scheduler.\n- Регуляризация: dropout, weight decay, batch norm, layer norm, data augmentation.\n- Оптимизаторы: SGD, momentum, Adam, AdamW. Что делает warmup.\n- CV: ResNet, EfficientNet, transfer learning, fine‑tuning.\n- NLP до трансформеров: word2vec, GloVe, embeddings, seq2seq.\n\n**Артефакт:** **mini‑GPT (~10M параметров) с нуля на PyTorch** + бенчмарк против `torch.nn.MultiheadAttention`. Это закроет понимание attention раз и навсегда.\n\n**Готов к следующему треку, когда:**\n\n- Можете написать тренировочный цикл с нуля без копипасты.\n- Знаете, почему vanishing gradients ломают глубокие сети и что с этим делают.\n- Понимаете разницу между batch norm и layer norm, и почему трансформеры используют именно layer norm.\n\n---\n\n## 🚀 Трек 4 — LLM и трансформеры\n\n**Цель:** понимать, как работают GPT‑подобные модели **внутри**, и уметь их применять в проде.\n\n**Темы:**\n\n- **Архитектура трансформера:** attention, self‑attention, multi‑head, positional encoding (sinusoidal, RoPE, ALiBi).\n- **Внутренности:** KV‑cache, MQA\u002FGQA, FlashAttention, speculative decoding, continuous batching, paged attention (vLLM).\n- **Tokenization:** BPE, WordPiece, SentencePiece. Почему `tiktoken` важен.\n- **Pre‑training → SFT → RLHF\u002FDPO:** как из «чтения интернета» получается ChatGPT.\n- **Prompt engineering:** few‑shot, chain‑of‑thought, ReAct, structured output (JSON mode, function calling).\n- **RAG:** chunking, embeddings, vector DB (Qdrant, Weaviate, pgvector), re‑ranking, hybrid search.\n- **Fine‑tuning:** LoRA, QLoRA, PEFT, DPO. Когда дообучать, а когда хватит промпта.\n- **AI‑агенты:** ReAct, tool use, function calling, MCP (Model Context Protocol), multi‑agent.\n\n**Артефакт:** **свой RAG‑сервис** на корпусе документов (книги \u002F документация \u002F Telegram‑архив) + дообучение open‑source модели (Llama \u002F Qwen \u002F Mistral 7B) через LoRA на собственном датасете.\n\n**Готов к следующему треку, когда:**\n\n- Объясняете KV‑cache на пальцах, и как он влияет на latency и память.\n- Понимаете, в чём разница между PPO и DPO.\n- Знаете, когда RAG лучше fine‑tuning, и наоборот.\n\n---\n\n## 🎨 Трек 5 — Generative AI и мультимодальность\n\n**Цель:** уметь генерировать изображения, видео, аудио — и понимать, как это работает.\n\n**Темы:**\n\n- **Diffusion models:** DDPM, DDIM, Latent Diffusion (Stable Diffusion), Flow Matching, DiT (Sora‑like).\n- **Управление генерацией:** classifier‑free guidance, ControlNet, LoRA для диффузии, IP‑Adapter.\n- **VLM (Vision‑Language Models):** CLIP, BLIP, LLaVA, Qwen‑VL, нативные мультимодальные (Gemini, GPT‑4o).\n- **Аудио:** Whisper, TTS, voice cloning, audio diffusion.\n- **Prompt engineering для генеративки:** стиль, композиция, негативные промпты.\n\n**Артефакт:** свой Stable Diffusion XL, дообученный через LoRA на собственном датасете (стиль \u002F лицо \u002F объект), + Gradio‑демо на Hugging Face Spaces.\n\n---\n\n## ⚙️ Трек 6 — MLOps и production\n\n**Цель:** довести модель до прода и не разбудить дежурного ночью.\n\n**Темы:**\n\n- Docker, docker‑compose, multi‑stage builds.\n- Kubernetes: pods, services, deployments, HPA. Helm‑чарты.\n- CI\u002FCD: GitHub Actions, тесты моделей, автоматический деплой.\n- Serving: **vLLM**, **TGI** (Hugging Face), **TensorRT‑LLM**, **llama.cpp**, **Ollama** (для LLM); BentoML, Ray Serve (для классики).\n- Мониторинг: метрики качества, drift detection, latency, токены\u002Fсек. Evidently, Grafana + Prometheus.\n- Эксперименты: **Weights & Biases**, **MLflow**, версионирование данных (**DVC**).\n- LLM‑observability: **LangSmith**, **Langfuse**, **Arize Phoenix**.\n\n**Артефакт:** свой LLM‑сервис в Docker → Kubernetes → с автоскейлингом, мониторингом и health‑checks. Метрики: tokens\u002Fsec, p99 latency, % ошибок.\n\n---\n\n## 🔁 Жизненный цикл ML-системы в проде\n\nML — не «обучил и забыл». Это замкнутый цикл: данные стареют, метрики деградируют, требования меняются. Сильный ML-инженер думает не «как обучить модель», а **как держать систему живой год**.\n\n```mermaid\nflowchart LR\n    subgraph DataLayer [Слой данных]\n        DS[Источники\u003Cbr\u002F>БД \u002F API \u002F стримы] --> ETL[ETL\u002FELT\u003Cbr\u002F>Airflow \u002F dbt]\n        ETL --> DW[(DWH \u002F Lake\u003Cbr\u002F>Parquet \u002F Iceberg)]\n        DW --> FS[Feature Store\u003Cbr\u002F>Feast]\n    end\n\n    subgraph Training [Обучение]\n        FS --> EXP[Эксперименты\u003Cbr\u002F>MLflow \u002F W&B]\n        EXP --> TRAIN[Тренировка\u003Cbr\u002F>PyTorch \u002F sklearn]\n        TRAIN --> EVAL[Offline eval\u003Cbr\u002F>+ ablations]\n        EVAL --> REG[Model Registry\u003Cbr\u002F>версия + метаданные]\n    end\n\n    subgraph Serving [Прод-инференс]\n        REG --> DEPLOY[Деплой\u003Cbr\u002F>Docker \u002F K8s]\n        DEPLOY --> CANARY[Canary \u002F Shadow\u003Cbr\u002F>5% трафика]\n        CANARY --> PROD[Production\u003Cbr\u002F>FastAPI \u002F vLLM \u002F Triton]\n    end\n\n    subgraph Monitor [Мониторинг]\n        PROD --> LOGS[Logs \u002F Traces\u003Cbr\u002F>OpenTelemetry]\n        LOGS --> DRIFT[Data drift\u003Cbr\u002F>PSI, Evidently]\n        LOGS --> METR[Качество\u003Cbr\u002F>online metrics]\n        DRIFT --> ALERT{Алерт?}\n        METR --> ALERT\n        ALERT -->|да| RETRAIN[Retrain trigger]\n        RETRAIN --> EXP\n    end\n\n    classDef data fill:#e8f5e9,stroke:#2e7d32,color:#1b5e20\n    classDef train fill:#fff8e1,stroke:#f57f17,color:#bf360c\n    classDef serve fill:#e3f2fd,stroke:#1565c0,color:#0d47a1\n    classDef mon fill:#fce4ec,stroke:#c2185b,color:#880e4f\n\n    class DS,ETL,DW,FS data\n    class EXP,TRAIN,EVAL,REG train\n    class DEPLOY,CANARY,PROD serve\n    class LOGS,DRIFT,METR,ALERT,RETRAIN mon\n```\n\n> 🎯 Цикл, который замыкается в retrain — это то, чего нет у джунов. На senior-собеседовании ML system design половина баллов — за умение нарисовать вот эту картинку для конкретной задачи.\n\n## 🎯 Трек 7 — Специализация (на выбор 1–2)\n\nК этому моменту у вас есть фундамент. Дальше — **глубина** в одной из областей:\n\n- **NLP \u002F LLM Engineer** — fine‑tuning, RAG в проде, агенты, LLM‑evaluation.\n- **Computer Vision** — детекция, сегментация, диффузия, видео, 3D, медицинский CV.\n- **Recommender Systems** — collaborative filtering, two‑tower, ранкеры, RecSys в проде.\n- **Reinforcement Learning** — Q‑learning, policy gradients, PPO, RLHF, агенты в средах.\n- **AI Safety \u002F Alignment** — red‑teaming, evaluation, interpretability, guardrails.\n- **MLOps \u002F Platform** — инфраструктура для ML‑команды, GPU‑оркестрация, feature stores.\n\n---\n\n## 📐 Уровни: junior → middle → senior → guru\n\n| Уровень | Что умеет |\n|---------|-----------|\n| **Junior ML** | Решает табличные задачи, тренирует CNN на готовых датасетах, понимает метрики, читает чужие ноутбуки. |\n| **Middle ML** | Пишет тренировочный цикл с нуля, дообучает LLM, поднимает RAG, понимает evaluation, делает прод. |\n| **Senior ML \u002F LLM Engineer** | Архитектура ML‑систем, выбор моделей и инфраструктуры, mentoring, исследовательские развилки. |\n| **Guru \u002F Vibe coder с пониманием** | Объясняет, как работает FlashAttention; реализует DPO, speculative decoding, кастомные ядра. Пишет свои статьи \u002F open‑source. |\n\n---\n\n## 🏔️ Пирамида уровней: что отличает грейды\n\nКаждый следующий уровень включает все навыки предыдущих и добавляет качественно новые: ответственность, архитектурные решения, влияние на команду.\n\n```mermaid\nflowchart TB\n    G[🧙 Guru \u002F Vibe coder с пониманием\u003Cbr\u002F>FlashAttention, DPO, кастомные ядра, свои статьи]\n    S[💎 Senior ML \u002F LLM Engineer\u003Cbr\u002F>архитектура систем, выбор инфры, менторство]\n    M[🥇 Middle ML\u003Cbr\u002F>трен. цикл с нуля, fine-tune LLM, RAG, evaluation, прод]\n    J[🥈 Junior ML\u003Cbr\u002F>табличные задачи, готовые CNN, метрики, чужие ноутбуки]\n    Base[🥉 База\u003Cbr\u002F>Python, SQL, Git, NumPy, Pandas, математика]\n\n    Base --> J --> M --> S --> G\n\n    classDef gold fill:#fff8e1,stroke:#f57f17,color:#bf360c\n    classDef sil fill:#eceff1,stroke:#455a64,color:#263238\n    classDef diam fill:#e3f2fd,stroke:#1565c0,color:#0d47a1\n    classDef guru fill:#f3e5f5,stroke:#6a1b9a,color:#4a148c\n\n    class Base,J sil\n    class M gold\n    class S diam\n    class G guru\n```\n\n## 💰 Лучшие платные курсы\n\n- **[Stepik — C# с нуля до профи](https:\u002F\u002Fstepik.org\u002Fa\u002F282984\u002Fpay?promo=4b3c5f3000f16022)** — ООП, SOLID, LINQ, async\u002Fawait, DI, EF Core, ASP.NET Core, Docker, Kubernetes. Если параллельно с ML вы укрепляете инженерный фундамент — это лучший русскоязычный курс по C#: всё, что казалось магией, становится рабочим инструментом.\n\n> 💡 По ML платные курсы добавим по мере появления. Пока сильнейшая бесплатная база покрывает 90% потребностей — см. ниже.\n\n---\n\n## 📺 Полезные Telegram‑каналы (читать каждый день)\n\nПодборка каналов, которые реально помогают держать руку на пульсе индустрии: свежие статьи, релизы моделей, разборы архитектур, вакансии и собеседования. Подписывайтесь точечно и читайте регулярно — это даёт больше, чем разовый «забег» по курсам.\n\n### 🤖 Машинное обучение, нейросети и LLM\n\n- **[@ai_machinelearning_big_data](https:\u002F\u002Ft.me\u002Fai_machinelearning_big_data)** — **главный русскоязычный канал по ML\u002FAI\u002FBig Data**. Свежие статьи, релизы моделей, разборы.\n- **[Data Analysis \u002F ML](https:\u002F\u002Ft.me\u002Fdata_analysis_ml)** — дата‑аналитика и ML без воды: туториалы, библиотеки, кейсы.\n- **[Вистехно](https:\u002F\u002Ft.me\u002Fvistehno)** — про технологии, AI и инженерную культуру.\n- **[Machine Learning Interview](https:\u002F\u002Ft.me\u002Fmachinelearning_interview)** — задачи, разборы собесов и теоретические вопросы по ML.\n- **[Data Science \u002F IoT](https:\u002F\u002Ft.me\u002Fdatascienceiot)** — Data Science, индустриальные применения и IoT.\n- **[Artificial Intelligence \u002F DL](https:\u002F\u002Ft.me\u002FArtificialIntelligencedl)** — обзоры статей по deep learning и AI.\n- **[Machine Learning Test](https:\u002F\u002Ft.me\u002FMachinelearningtest)** — тесты, мини‑задачи и проверка знаний по ML.\n- **[Machine Learning](https:\u002F\u002Ft.me\u002Fmachinee_learning)** — англоязычные новости и материалы по ML.\n- **[Machine Learning RU](https:\u002F\u002Ft.me\u002Fmachinelearning_ru)** — русскоязычный канал по ML, статьи и инструменты.\n- **[Neural Networks](https:\u002F\u002Ft.me\u002Fneural)** — про нейронные сети, архитектуры и применения.\n- **[Machine Learning Rus](https:\u002F\u002Ft.me\u002Fmachinelearning_rus)** — материалы по ML на русском, разборы и подборки.\n- **[Big Data AI](https:\u002F\u002Ft.me\u002Fbigdatai)** — Big Data, аналитика и AI‑инструменты для работы с данными.\n- **[@ai_generative](https:\u002F\u002Ft.me\u002Fai_generative)** — генеративный AI: LLM, диффузионные модели, image\u002Fvideo\u002Faudio generation.\n\n### 📚 Книги, базы данных и SQL\n\n- **[Machine Learning Books](https:\u002F\u002Ft.me\u002Fmachinelearning_books)** — книги, гайды и учебные материалы по ML\u002FAI.\n- **[SQL Hub](https:\u002F\u002Ft.me\u002Fsqlhub)** — SQL, оптимизация запросов и работа с реляционными БД.\n- **[Databases](https:\u002F\u002Ft.me\u002Fdatabases_tg)** — про базы данных: реляционные, NoSQL, аналитические.\n\n### 💼 Вакансии и карьера\n\n- **[Data Science \u002F ML Jobs](https:\u002F\u002Ft.me\u002Fdatascienceml_jobs)** — вакансии в Data Science и ML, удалёнка и офис.\n- **[Machine Learning Jobs](https:\u002F\u002Ft.me\u002FMachinelearning_Jobs)** — отдельная лента ML‑вакансий: junior, middle, senior, research.\n\n### 📁 Папки и оптовая подписка\n\n- **[📁 Большая папка ML\u002FAI каналов](https:\u002F\u002Ft.me\u002Faddlist\u002Fu15AMycxRMowZmRi)** — кураторская подборка лучших каналов по машинному обучению, нейросетям, LLM и MLOps. Подписаться оптом.\n\n> 💡 Совет: не подписывайтесь на 200 каналов. Возьмите 5–7 ключевых, читайте каждый день 15 минут — этого хватит, чтобы быть в курсе индустрии. Остальные держите в отдельной папке и заглядывайте раз в неделю.\n\n---\n\n## 🆓 Лучшие бесплатные курсы по ML \u002F DL \u002F LLM\n\nЭтого списка хватит, чтобы стать ML‑инженером без единой копейки. Главное — **доходить до конца** и делать домашки.\n\n### 🟢 Старт: математика и Python\n\n- **[Khan Academy — Linear Algebra \u002F Calculus \u002F Probability](https:\u002F\u002Fwww.khanacademy.org\u002Fmath)** — бесплатно, на пальцах, идеально для входа.\n- **[3Blue1Brown — Essence of Linear Algebra \u002F Neural Networks](https:\u002F\u002Fwww.3blue1brown.com\u002F)** — визуальные интуитивные ролики. Обязательно.\n- **[CS50P — Introduction to Python (Harvard)](https:\u002F\u002Fcs50.harvard.edu\u002Fpython\u002F)** — лучший вводный курс по Python.\n\n### 🟡 Classical ML\n\n- **[Andrew Ng — Machine Learning Specialization (Coursera)](https:\u002F\u002Fwww.coursera.org\u002Fspecializations\u002Fmachine-learning-introduction)** — классика, аудит бесплатно.\n- **[StatQuest with Josh Starmer (YouTube)](https:\u002F\u002Fwww.youtube.com\u002F@statquest)** — ML и статистика на пальцах с песнями. Серьёзно — лучший канал для интуиции.\n- **[Open Machine Learning Course (ODS.ai \u002F mlcourse.ai)](https:\u002F\u002Fmlcourse.ai\u002F)** — главный русскоязычный открытый курс по ML.\n- **[ШАД — Школа анализа данных Яндекса (открытые материалы)](https:\u002F\u002Facademy.yandex.ru\u002Fhandbook\u002Fml)** — учебник по ML от Яндекса, бесплатно.\n\n### 🔴 Deep Learning\n\n- **[fast.ai — Practical Deep Learning for Coders](https:\u002F\u002Fcourse.fast.ai\u002F)** — top‑down подход: сначала работает, потом разбираемся. Лучший практический курс.\n- **[Andrew Ng — Deep Learning Specialization (Coursera)](https:\u002F\u002Fwww.coursera.org\u002Fspecializations\u002Fdeep-learning)** — фундамент.\n- **[Andrej Karpathy — Neural Networks: Zero to Hero (YouTube)](https:\u002F\u002Fkarpathy.ai\u002Fzero-to-hero.html)** — **обязательно к просмотру**. От `micrograd` до `nanoGPT` своими руками.\n- **[CS231n — Stanford CV](http:\u002F\u002Fcs231n.stanford.edu\u002F)** — классический курс по computer vision.\n- **[Dive into Deep Learning (d2l.ai)](https:\u002F\u002Fd2l.ai\u002F)** — бесплатный интерактивный учебник с кодом.\n- **[Deep Learning School (МФТИ)](https:\u002F\u002Fwww.dlschool.org\u002F)** — лучший русскоязычный курс по DL.\n\n### 🟣 LLM, трансформеры и Generative AI\n\n- **[Hugging Face — NLP Course](https:\u002F\u002Fhuggingface.co\u002Flearn\u002Fnlp-course)** — официальный курс по работе с трансформерами через библиотеку Transformers. Полное прохождение pipeline от токенизации до деплоя.\n- **[Hugging Face — Deep RL Course](https:\u002F\u002Fhuggingface.co\u002Flearn\u002Fdeep-rl-course)** — RL с практикой.\n- **[Hugging Face — Diffusion Models Course](https:\u002F\u002Fhuggingface.co\u002Flearn\u002Fdiffusion-course)** — как работают Stable Diffusion и Flux.\n- **[Hugging Face — Audio Course](https:\u002F\u002Fhuggingface.co\u002Flearn\u002Faudio-course)** — Whisper, TTS, обработка звука.\n- **[Hugging Face — Agents Course](https:\u002F\u002Fhuggingface.co\u002Flearn\u002Fagents-course)** — официальный курс по AI‑агентам, smolagents, LangGraph. Самый актуальный материал 2025.\n- **[DeepLearning.AI — Short Courses](https:\u002F\u002Fwww.deeplearning.ai\u002Fshort-courses\u002F)** — десятки бесплатных коротких курсов от Andrew Ng в партнёрстве с OpenAI, Anthropic, LangChain, LlamaIndex.\n- **[Full Stack Deep Learning — LLM Bootcamp](https:\u002F\u002Ffullstackdeeplearning.com\u002Fllm-bootcamp\u002F)** — двухдневный буткамп по построению LLM‑приложений. Полностью бесплатно на YouTube.\n- **[Stanford CS25 — Transformers United](https:\u002F\u002Fweb.stanford.edu\u002Fclass\u002Fcs25\u002F)** — гостевые лекции от авторов главных работ по трансформерам (включая авторов «Attention Is All You Need»).\n- **[Maxime Labonne — LLM Course (GitHub)](https:\u002F\u002Fgithub.com\u002Fmlabonne\u002Fllm-course)** — структурированный roadmap по LLM с тетрадями для fine‑tuning, quantization, evaluation. Один из самых популярных open‑source курсов 2024–2025.\n\n### 🟠 Prompt engineering, RAG, AI‑агенты\n\n- **[Anthropic — Prompt Engineering Interactive Tutorial](https:\u002F\u002Fgithub.com\u002Fanthropics\u002Fprompt-eng-interactive-tutorial)** — официальный туториал от Anthropic по работе с Claude. Лучший источник по prompt engineering.\n- **[Anthropic — Courses (GitHub)](https:\u002F\u002Fgithub.com\u002Fanthropics\u002Fcourses)** — полный набор бесплатных курсов: API Fundamentals, Prompt Engineering, Real World Prompting, Tool Use, Model Context Protocol.\n- **[OpenAI Cookbook](https:\u002F\u002Fcookbook.openai.com\u002F)** — сотни рабочих примеров от OpenAI: prompt engineering, function calling, embeddings, RAG.\n- **[Microsoft — Generative AI for Beginners](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fgenerative-ai-for-beginners)** — 21 урок с кодом по построению GenAI‑приложений. Полностью бесплатно.\n- **[Microsoft — AI Agents for Beginners](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fai-agents-for-beginners)** — официальный курс Microsoft по AI‑агентам, 10+ уроков с примерами.\n- **[LangChain Academy](https:\u002F\u002Facademy.langchain.com\u002F)** — бесплатные курсы по LangChain и LangGraph: Introduction to LangGraph, Intro to LangSmith.\n- **[Prompt Engineering Guide (DAIR.AI)](https:\u002F\u002Fwww.promptingguide.ai\u002F)** — сводный каталог техник промптинга, бесплатно онлайн.\n\n### 🟤 MLOps, production и инфраструктура\n\n- **[Made With ML — MLOps Course](https:\u002F\u002Fmadewithml.com\u002Fcourses\u002Fmlops\u002F)** — полный курс по доведению ML до прода: design, develop, deploy, iterate. Бесплатно.\n- **[Full Stack Deep Learning](https:\u002F\u002Ffullstackdeeplearning.com\u002F)** — производственный ML от Berkeley. Все лекции на YouTube бесплатно.\n- **[MLOps Zoomcamp (DataTalks.Club)](https:\u002F\u002Fgithub.com\u002FDataTalksClub\u002Fmlops-zoomcamp)** — практический буткамп по MLOps. Бесплатно, с домашками и сертификатом.\n- **[Machine Learning Engineering for Production (MLOps) Specialization](https:\u002F\u002Fwww.coursera.org\u002Fspecializations\u002Fmachine-learning-engineering-for-production-mlops)** — Andrew Ng + Robert Crowe, бесплатный аудит.\n- **[Designing Machine Learning Systems — Chip Huyen (заметки и материалы)](https:\u002F\u002Fhuyenchip.com\u002Fml-interviews-book\u002F)** — бесплатные материалы автора главной книги по ML‑системам.\n\n### ⚫ Reinforcement Learning и продвинутые темы\n\n- **[David Silver — Reinforcement Learning Course (DeepMind, UCL)](https:\u002F\u002Fwww.davidsilver.uk\u002Fteaching\u002F)** — классический курс по RL от автора AlphaGo. Все лекции на YouTube.\n- **[Spinning Up in Deep RL (OpenAI)](https:\u002F\u002Fspinningup.openai.com\u002F)** — официальное введение в Deep RL от OpenAI. Теория + рабочий код.\n\n> 🎯 **Как использовать список:** не пытайтесь пройти всё. Возьмите по 1 курсу из каждого блока, который актуален вашему текущему треку. Пройдите до конца — с домашками и проектом. Потом возвращайтесь за следующим.\n\n---\n\n## ❓ FAQ\n\n**Сколько нужно математики, чтобы войти в ML?**\nЛинейная алгебра на уровне умножения матриц, производные и градиенты, базовый теорвер и статистика. Дифференциальную геометрию учить **не нужно**. Если плаваете — Khan Academy + 3Blue1Brown за месяц закроют.\n\n**PyTorch или TensorFlow?**\nPyTorch — де‑факто стандарт в 2025. Начинайте с него. JAX — для исследований, если пойдёте глубоко в research.\n\n**Брать ли платный курс или хватит бесплатных?**\nБесплатных курсов выше хватит на путь от нуля до middle. Платные курсы оправданы, если вам нужна структура, дедлайны и ментор. Сертификат сам по себе не нанимает — нанимает портфолио.\n\n**Сколько времени до первого оффера?**\n6–12 месяцев интенсивной работы (15+ часов в неделю) с фокусом на портфолио. Меньше — нереалистично. Больше — нормально, если параллельно работаете.\n\n**Что делать, если статьи на arXiv пока непонятны?**\nЭто нормально. Читайте сначала разборы (Lilian Weng, Jay Alammar, paperswithcode.com), потом саму статью. Через 30 прочитанных статей пойдёт легче.\n\n**LLM — это пузырь, или будущее?**\nLLM — это инструмент, который останется. Конкретные продукты вокруг них могут меняться, но навык работы с трансформерами, RAG, агентами и fine‑tuning будет востребован минимум 5–10 лет.\n\n---\n\n## 🤝 Contributing\n\nPR с уточнениями, обновлениями ссылок, новыми ресурсами и опытом приветствуются. Перед отправкой:\n\n- Один PR — одна логическая правка.\n- Сохраняйте тон: трезвый, прикладной, без маркетинга.\n- Ресурсы добавляем только те, которые сами проверяли.\n\n---\n\n## 📄 License\n\nMIT. Используйте, форкайте, адаптируйте под свои команды и студии.\n\n\n---\n\n## 🧠 Продвинутые темы (deep dive)\n\nЭтот блок — не «обязательная программа», а карта **специализаций**. Выбирайте 1–2 направления после трека 5–6, погружайтесь до уровня, на котором можете писать свои реализации, а не только дёргать API.\n\n### 🔴 Внутренности трансформера: от математики до CUDA\n\n- **Что должен уметь объяснить «гуру вайбкодинга»:**\n  - Почему `attention` — это soft k-NN, а не «магия».\n  - Что такое KV-cache, как он экономит compute и почему ломается на длинных контекстах.\n  - Чем отличаются **MHA \u002F MQA \u002F GQA**, зачем придумали **RoPE**, **ALiBi**, **YaRN**.\n  - Что такое **FlashAttention** (1\u002F2\u002F3), почему быстрее наивного `softmax(QK^T)V`.\n  - Как работает **speculative decoding**, **continuous batching**, **paged attention** (vLLM).\n- **Артефакт:** свой mini-GPT (~10M параметров) с нуля на PyTorch + бенчмарк против `torch.nn.MultiheadAttention`.\n- **Ресурсы:** Karpathy `nanoGPT` и `build-nanogpt`, статьи **Attention Is All You Need**, **GPT-2\u002F3\u002F4 tech reports**, блог Lilian Weng.\n\n### 🔴 Alignment, RLHF, DPO и пост-тренинг LLM\n\n- **Темы:** SFT → Reward Modeling → PPO\u002FRLHF → DPO\u002FIPO\u002FKTO → Constitutional AI → RLAIF.\n- **Понимать на пальцах:**\n  - Почему «просто SFT» недостаточно для chat-моделей.\n  - В чём математическая разница между PPO и DPO (и почему DPO выиграл по простоте).\n  - Что такое **reward hacking**, **sycophancy**, **mode collapse** после RLHF.\n- **Артефакт:** дообучение open-source модели (Llama \u002F Qwen \u002F Mistral 7B) через **LoRA + DPO** на своём датасете, сравнение метрик с базовой моделью.\n- **Ресурсы:** **InstructGPT paper**, **DPO paper (Rafailov et al.)**, **Anthropic Constitutional AI**, библиотеки `trl`, `axolotl`, `unsloth`.\n\n### 🔴 Diffusion models и генеративка изображений\u002Fвидео\n\n- **Темы:** DDPM → DDIM → Score-based models → Latent Diffusion (Stable Diffusion) → Flow Matching → Rectified Flow → DiT (Sora-like).\n- **Понимать:** прямой\u002Fобратный процесс, **classifier-free guidance**, **ControlNet**, **LoRA для диффузии**, **IP-Adapter**.\n- **Артефакт:** свой DDPM на MNIST\u002FCIFAR с нуля + fine-tune Stable Diffusion XL через LoRA на собственном датасете (стиль, лицо, объект).\n- **Ресурсы:** курс **fast.ai Part 2 (Diffusion from scratch)**, статьи **DDPM**, **LDM**, **DiT**, блог Sander Dieleman.\n\n### 🔴 Мультимодальность и VLM\n\n- **Темы:** CLIP → BLIP\u002FBLIP-2 → LLaVA → Qwen-VL → GPT-4V → нативные мультимодальные модели (Gemini, GPT-4o).\n- **Понимать:** как картинка превращается в токены, что такое **vision encoder + projector + LLM**, почему OCR-задачи всё ещё ломаются.\n- **Артефакт:** свой VLM-стек: CLIP-эмбеддинги → projection layer → LLM, дообученный на узком домене (медснимки, мемы, схемы).\n\n### 🔴 AI-агенты и tool use на проде\n\n- **Темы:** ReAct → Toolformer → function calling → **MCP (Model Context Protocol)** → multi-agent (CrewAI, AutoGen, LangGraph) → computer use агенты (Claude Computer Use, OpenAI Operator).\n- **Понимать:** почему **«один большой промпт» не масштабируется**, что такое **state machine для агента**, как ловить и чинить **infinite loops** и **hallucinated tools**.\n- **Артефакт:** агент-аналитик, который сам ходит в БД, пишет SQL, строит графики и присылает отчёт в Telegram. С полноценным трейсингом через **LangSmith \u002F Langfuse \u002F Phoenix**.\n\n### 🔴 Схема RAG-сервиса end-to-end\n\nПеред погружением в детали — общая картинка, как устроен боевой RAG-сервис. Эту диаграмму полезно держать в голове, когда читаете любую главу про retrieval, reranking или агентов.\n\n```mermaid\nflowchart LR\n    subgraph Ingest [📥 Индексация - офлайн]\n        D1[Документы\u003Cbr\u002F>PDF \u002F MD \u002F HTML] --> CH[Chunking\u003Cbr\u002F>500-1500 токенов\u003Cbr\u002F>overlap 100-200]\n        CH --> EMB1[Embedding\u003Cbr\u002F>bge \u002F e5 \u002F text-embedding-3]\n        EMB1 --> VDB[(Vector DB\u003Cbr\u002F>Qdrant \u002F pgvector)]\n        CH --> BM25[(BM25 index\u003Cbr\u002F>Elasticsearch \u002F tantivy)]\n    end\n\n    subgraph Query [🔍 Запрос - онлайн]\n        Q[Вопрос пользователя] --> QR[Query rewriting\u003Cbr\u002F>+ HyDE]\n        QR --> EMB2[Embedding запроса]\n        EMB2 --> VS[Vector search\u003Cbr\u002F>top-50]\n        QR --> KS[Keyword search\u003Cbr\u002F>top-50]\n        VDB -.-> VS\n        BM25 -.-> KS\n        VS --> RRF[RRF fusion\u003Cbr\u002F>+ rerank cross-encoder\u003Cbr\u002F>top-5]\n        KS --> RRF\n        RRF --> CTX[Context window\u003Cbr\u002F>prompt + чанки]\n        CTX --> LLM[LLM\u003Cbr\u002F>Claude \u002F GPT \u002F Llama]\n        LLM --> ANS[Ответ + источники]\n    end\n\n    subgraph Eval [📊 Eval и observability]\n        ANS --> LOG[Logging\u003Cbr\u002F>Langfuse \u002F LangSmith]\n        LOG --> METRICS[Metrics\u003Cbr\u002F>faithfulness, recall@k, latency]\n        METRICS --> ALERT[Alerts\u003Cbr\u002F>drift, fail rate]\n    end\n\n    classDef ingest fill:#e8f5e9,stroke:#2e7d32,color:#1b5e20\n    classDef query fill:#e3f2fd,stroke:#1565c0,color:#0d47a1\n    classDef eval fill:#fce4ec,stroke:#c2185b,color:#880e4f\n    classDef store fill:#fff8e1,stroke:#f57f17,color:#bf360c\n\n    class D1,CH,EMB1 ingest\n    class Q,QR,EMB2,VS,KS,RRF,CTX,LLM,ANS query\n    class LOG,METRICS,ALERT eval\n    class VDB,BM25 store\n```\n\n> 💡 Главные точки, где RAG обычно ломается: чанкинг (слишком мелко\u002Fкрупно), отсутствие reranker'а, нет hybrid search, не меряют качество retrieval отдельно от качества генерации.\n\n### 🔴 LLM evaluation — самое недооценённое\n\n- **Темы:** academic benchmarks (MMLU, HellaSwag, GSM8K, HumanEval, BBH, MT-Bench, Arena-Hard) → **task-specific eval** → **LLM-as-a-Judge** → **golden datasets** → **A\u002FB на проде**.\n- **Понимать:** почему **«вайб-чек»** — это не evaluation, что такое **contamination**, как считать **pass@k**, **win rate**, **factuality**.\n- **Артефакт:** свой eval-харнесс для конкретной задачи (RAG \u002F classification \u002F agent) с автоматическим прогоном на каждом коммите.\n- **Инструменты:** `lm-evaluation-harness`, `OpenAI evals`, `promptfoo`, `DeepEval`, `Ragas`, `TruLens`.\n\n### 🔴 Безопасность, jailbreaks, red-teaming\n\n- **Темы:** prompt injection, indirect prompt injection, data exfiltration, jailbreaks (DAN, GCG, many-shot), **PII leakage**, **model stealing**, **membership inference**.\n- **Понимать:** **OWASP Top-10 for LLM Applications**, разницу между **alignment** и **safety**, что такое **defence in depth** для LLM-приложений.\n- **Артефакт:** red-team отчёт по своему RAG-сервису + набор guardrails (input\u002Foutput фильтры, rate limits, PII-маски).\n- **Ресурсы:** **OWASP LLM Top-10**, **Anthropic responsible scaling policy**, гайды **NIST AI RMF**.\n\n### 🔴 Эффективность: квантование, distillation, edge\n\n- **Темы:** PTQ vs QAT, GPTQ, AWQ, GGUF, bitsandbytes, **knowledge distillation**, **pruning**, **MoE**.\n- **Понимать:** где теряется качество при int4\u002Fint8, когда выгоднее меньшая модель + RAG, чем большая «в лоб».\n- **Артефакт:** свой LLM, запущенный на ноутбуке\u002Fтелефоне через **llama.cpp** \u002F **MLX** \u002F **ONNX Runtime**, бенчмарк tokens\u002Fsec и качества.\n\n---\n\n## 📚 Must-read papers (минимальный канон)\n\nЕсли вы можете рассказать **своими словами**, что в этих статьях и зачем — вы понимаете, как работает современный AI изнутри.\n\n**Фундамент трансформеров и LLM:**\n\n- **Attention Is All You Need** (Vaswani et al., 2017) — оригинал трансформера.\n- **BERT** (Devlin et al., 2018) — masked LM, эпоха encoder-only.\n- **GPT-2 \u002F GPT-3 \u002F GPT-4 technical reports** — scaling laws на практике.\n- **Scaling Laws for Neural Language Models** (Kaplan et al., 2020) и **Chinchilla** (Hoffmann et al., 2022) — сколько данных vs параметров.\n- **LoRA** (Hu et al., 2021) — почему дообучение стало дешёвым.\n- **FlashAttention 1\u002F2** (Dao et al.) — IO-aware attention.\n\n**Alignment и пост-тренинг:**\n\n- **InstructGPT** (Ouyang et al., 2022) — RLHF в проде.\n- **Constitutional AI** (Bai et al., 2022) — Anthropic, RLAIF.\n- **Direct Preference Optimization** (Rafailov et al., 2023) — DPO без reward model.\n- **Self-Instruct** \u002F **Alpaca** — синтетические данные для SFT.\n\n**RAG, агенты, tool use:**\n\n- **Retrieval-Augmented Generation** (Lewis et al., 2020).\n- **ReAct** (Yao et al., 2022) — reasoning + acting.\n- **Toolformer** (Schick et al., 2023).\n- **Chain-of-Thought Prompting** (Wei et al., 2022) и **Tree of Thoughts**.\n\n**Генеративка и мультимодальность:**\n\n- **DDPM** (Ho et al., 2020) — denoising diffusion.\n- **Latent Diffusion** (Rombach et al., 2022) — Stable Diffusion.\n- **CLIP** (Radford et al., 2021).\n- **DiT** (Peebles & Xie, 2023) — diffusion transformer (Sora-like).\n\n**Состояние индустрии (читать обзоры раз в полгода):**\n\n- **State of AI Report** (Nathan Benaich) — ежегодно.\n- **Stanford AI Index Report** — ежегодно.\n- **A Survey of Large Language Models** (Zhao et al.) — обновляется.\n\n> 💡 Совет: читайте статьи **с кодом рядом**. Если статья без репозитория и реализации — её влияние обычно переоценено.\n\n---\n\n## 📖 Книги, которые реально меняют уровень\n\n**Базовый ML\u002FDL:**\n\n- **«Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow»** — Aurélien Géron. Лучшая практическая книга для входа.\n- **«Deep Learning»** — Goodfellow, Bengio, Courville. Теоретический фундамент. Бесплатно онлайн.\n- **«Pattern Recognition and Machine Learning»** — Christopher Bishop. Для тех, кто хочет математику глубоко.\n- **«The Elements of Statistical Learning»** — Hastie, Tibshirani, Friedman. Бесплатно онлайн, классика статистики.\n- **«Probabilistic Machine Learning»** — Kevin Murphy (2 тома). Современная альтернатива Бишопу. Бесплатно онлайн.\n\n**Продакшен и инженерия:**\n\n- **«Designing Machine Learning Systems»** — Chip Huyen. Главная книга по ML-системам на проде.\n- **«Machine Learning Engineering»** — Andriy Burkov. Прикладная, без воды.\n- **«Building Machine Learning Powered Applications»** — Emmanuel Ameisen.\n- **«Reliable Machine Learning»** — O'Reilly, SRE-подход к ML.\n\n**LLM и Generative AI:**\n\n- **«Build a Large Language Model (From Scratch)»** — Sebastian Raschka. Свой GPT с нуля построчно.\n- **«Hands-On Large Language Models»** — Jay Alammar, Maarten Grootendorst.\n- **«AI Engineering»** — Chip Huyen (2025) — про построение LLM-приложений.\n- **«Generative Deep Learning»** — David Foster.\n\n**Софт-скиллы и мышление:**\n\n- **«The Hundred-Page Machine Learning Book»** — Andriy Burkov. Идеально для быстрого повторения.\n- **«Storytelling with Data»** — Cole Nussbaumer Knaflic. Как доносить результаты до бизнеса.\n\n---\n\n## 🛠️ Боевой стек инструментов (cheat sheet)\n\nКаждый инструмент — выучить до уровня «знаю команды наизусть и могу объяснить trade-offs».\n\n**Данные и эксперименты:**\n\n- **Обработка:** `pandas`, `polars`, `duckdb`, `pyarrow`, `dask`.\n- **Визуализация:** `matplotlib`, `seaborn`, `plotly`, `altair`.\n- **Эксперименты:** **Weights & Biases**, **MLflow**, **Neptune**, **ClearML**.\n- **Версионирование данных:** **DVC**, **lakeFS**, **Delta Lake**.\n\n**Модели и тренировка:**\n\n- **Фреймворки:** `PyTorch` (де-факто стандарт), `JAX` (для исследований), `scikit-learn` (classic ML).\n- **Высокий уровень:** `PyTorch Lightning`, `Hugging Face Transformers`, `Accelerate`.\n- **Дообучение LLM:** `trl`, `peft`, `unsloth`, `axolotl`, `LLaMA-Factory`.\n- **Распределённое:** `DeepSpeed`, `FSDP`, `Megatron-LM`.\n\n**Инференс и серинг:**\n\n- **LLM серинг:** **vLLM**, **TGI** (Hugging Face), **SGLang**, **TensorRT-LLM**, **llama.cpp**, **Ollama**, **LM Studio**.\n- **Классические модели:** `BentoML`, `Ray Serve`, `Triton Inference Server`, `TorchServe`.\n- **Edge \u002F on-device:** **ONNX Runtime**, **CoreML**, **MLX** (Apple Silicon), **TensorFlow Lite**.\n\n**LLM-приложения:**\n\n- **Оркестрация:** **LangChain**, **LlamaIndex**, **LangGraph**, **Haystack**, **DSPy**.\n- **Векторные БД:** **Qdrant**, **Weaviate**, **Milvus**, **pgvector**, **Chroma**, **FAISS**.\n- **Observability:** **LangSmith**, **Langfuse**, **Arize Phoenix**, **Helicone**.\n- **Evaluation:** **Ragas**, **DeepEval**, **promptfoo**, **TruLens**.\n- **Guardrails:** **NeMo Guardrails**, **Guardrails AI**, **Llama Guard**.\n\n**MLOps и инфраструктура:**\n\n- **Оркестрация:** **Airflow**, **Prefect**, **Dagster**, **Kubeflow**.\n- **Контейнеры\u002Fоблако:** **Docker**, **Kubernetes**, **Terraform**, **AWS\u002FGCP\u002FAzure**.\n- **Мониторинг:** **Evidently**, **WhyLabs**, **Grafana + Prometheus**.\n- **Feature store:** **Feast**, **Tecton**.\n\n> ⚠️ **Не учите всё сразу.** Берите 1 инструмент из каждой категории под текущий проект. Остальное — на bookmark.\n\n---\n\n## 🌐 Сообщества и где быть «в курсе»\n\n**Англоязычные:**\n\n- **Hugging Face** ([huggingface.co](https:\u002F\u002Fhuggingface.co)) — модели, датасеты, Spaces, форум.\n- **Papers with Code** ([paperswithcode.com](https:\u002F\u002Fpaperswithcode.com)) — статьи + бенчмарки + код.\n- **arXiv** ([arxiv.org](https:\u002F\u002Farxiv.org)) — секции `cs.LG`, `cs.CL`, `cs.CV`, `stat.ML`.\n- **r\u002FMachineLearning**, **r\u002FLocalLLaMA** — Reddit, лучшие практические треды по open-source LLM.\n- **EleutherAI Discord**, **Hugging Face Discord** — где сидят авторы статей.\n- **AlphaSignal**, **The Batch (DeepLearning.AI)**, **Import AI** (Jack Clark), **Interconnects** (Nathan Lambert) — рассылки.\n\n**Русскоязычные:**\n\n- **ODS.ai** ([ods.ai](https:\u002F\u002Fods.ai)) — главное русскоязычное ML-сообщество, Slack + митапы.\n- **Data Fest** — ежегодная конференция ODS.\n- **Kaggle ru community** — Telegram-чаты по соревнованиям.\n- **Telegram-каналы** — см. блок «Полезные Telegram-каналы» в начале README.\n\n**Конференции (что смотреть на YouTube, если не попасть очно):**\n\n- **NeurIPS**, **ICML**, **ICLR** — топ-3 академические.\n- **ACL**, **EMNLP**, **NAACL** — NLP.\n- **CVPR**, **ICCV**, **ECCV** — computer vision.\n- **MLSys** — ML-системы и инфраструктура.\n- **KDD** — applied data mining.\n- **Data Council**, **MLOps World** — индустриальные.\n\n---\n\n## 🏆 Соревнования и портфолио\n\n**Где набивать руку:**\n\n- **Kaggle** — классика. Цель не «золото», а **публичные ноутбуки** с разбором решений топов.\n- **Hugging Face competitions** — фокус на LLM\u002Fмультимодальность.\n- **AIcrowd**, **DrivenData**, **Zindi** — задачи с социальным импактом.\n- **Numerai**, **QuantConnect** — если интересен финтех.\n- **LMSYS Chatbot Arena** — посылать свои fine-tuned модели на public eval.\n\n**Что должно быть в портфолио к моменту найма на ML\u002FLLM позицию:**\n\n1. **3–5 end-to-end проектов** на GitHub: README с метриками, демо (HF Space \u002F Streamlit \u002F Gradio), воспроизводимый код.\n2. **1 хардовый проект:** своя реализация чего-то нетривиального (mini-GPT, DDPM, RAG-сервис, агент) — **не туториал**.\n3. **Технический блог** — 5–10 постов про свои эксперименты. Habr \u002F Medium \u002F личный сайт.\n4. **Вклад в open-source** — хотя бы 1–2 merged PR в популярные репозитории (transformers, langchain, vllm и т.п.).\n5. **Профиль на Hugging Face** — выложенные модели\u002Fдатасеты\u002FSpaces.\n\n---\n\n## 📊 Как измерять свой прогресс (без самообмана)\n\nПростые контрольные вопросы для каждого уровня. Если не можете ответить **без гугла за 60 секунд** — уровень не пройден.\n\n**Junior ML:**\n\n- В чём разница между bias и variance? Как их балансировать?\n- Когда L1 регуляризация лучше L2?\n- Почему ROC-AUC может вводить в заблуждение на дисбалансе?\n- Что такое data leakage и 3 способа его словить?\n\n**Middle ML \u002F DL:**\n\n- Почему vanishing gradients ломают глубокие сети и что с этим делают?\n- В чём идея batch norm и почему он не всегда работает в трансформерах?\n- Что происходит при `model.eval()` в PyTorch?\n- Чем отличается attention от self-attention? Что такое причинная маска?\n\n**Senior \u002F LLM Engineer:**\n\n- Объясните KV-cache на пальцах. Как он влияет на latency и память?\n- В чём математическая разница между PPO и DPO?\n- Когда RAG лучше fine-tuning, и наоборот?\n- Как бы вы построили eval для чат-бота поддержки **без** human annotators?\n- Что вы сделаете, если у RAG-сервиса вдруг упало качество в проде?\n\n**Guru (вайбкодер с пониманием):**\n\n- Напишите псевдокод FlashAttention и объясните, где экономия.\n- Почему DPO теоретически эквивалентен PPO при определённых условиях?\n- Как реализовать speculative decoding с нуля?\n- Спроектируйте архитектуру multi-tenant LLM-сервиса на 10k RPS с SLA 99.9%.\n\n---\n\n## 🗺️ Карьерные треки внутри ML\n\nML — это не одна профессия. Понимайте, **куда именно** вы целитесь.\n\n- **Data Scientist** — гипотезы, A\u002FB, статистика, бизнес-метрики. Меньше кода, больше коммуникации.\n- **ML Engineer** — пайплайны, инференс, latency, надёжность. Ближе к backend.\n- **MLOps \u002F Platform Engineer** — инфраструктура для ML-команды. Kubernetes, observability, CI\u002FCD моделей.\n- **Research Engineer** — реализация статей, эксперименты с архитектурами. Мост между research и prod.\n- **Research Scientist** — свои статьи, PhD-уровень. Топовые лабы: Anthropic, OpenAI, DeepMind, Meta FAIR.\n- **LLM \u002F GenAI Engineer** — новая роль. Промпты, RAG, агенты, fine-tuning. Самая горячая в 2024–2026.\n- **Applied AI Engineer** — встраивание AI-фич в продукт. Гибрид product + ML + frontend\u002Fbackend.\n- **AI Safety \u002F Alignment Researcher** — red-teaming, evaluation, interpretability. Anthropic, Apollo, METR.\n\n> 🎯 Совет: на джуне нормально быть «универсалом». К мидлу выберите 1–2 трека и копайте вглубь. На сениоре T-shape: один трек глубоко + смежные на уровне «могу собеседовать».\n\n\n---\n\n## 🤖 Vibe coding: как кодить с Claude, ChatGPT и Copilot на уровне сениора\n\n**Vibe coding** (термин Andrej Karpathy, 2025) — стиль разработки, где вы не пишете каждую строчку руками, а ведёте диалог с LLM: формулируете намерение, итеративно правите, читаете diff, гоняете тесты. Код пишет модель, инженер — главный архитектор, ревьюер и носитель контекста. На рынке 2026 это уже не «читерство», а базовый навык: компании оценивают, **насколько эффективно вы умеете работать в паре с AI**, а не просто «знаете Python».\n\nЭтот раздел — выжимка того, что реально работает в проде: какие модели и инструменты брать, как ставить задачи, где не наступить на грабли, и куда расти от «генерю функции» до «веду фичу с нуля с агентом».\n\n### 🧠 Большие LLM для кода: что брать в 2026\n\n| Модель | Сильные стороны | Где использовать | Контекст |\n|---|---|---|---|\n| **Claude Opus 4.x \u002F Sonnet 4.x** (Anthropic) | Лучший «инженерный» рассуждатель, аккуратный с большими кодбазами, сильный tool use, низкая «галлюцинация» API | Рефакторинг, агенты, code review, долгие сессии в Claude Code | 200K+ токенов |\n| **GPT-5 \u002F o-series** (OpenAI) | Сильный reasoning, мультимодальность, отличные «one-shot» решения сложных алгоритмических задач | ChatGPT для архитектурных решений, Codex CLI, GitHub Copilot Chat | 256K+ |\n| **Gemini 2.x Pro** (Google) | Гигантский контекст (1M+), хорош для анализа целых репозиториев | Чтение больших кодбаз, миграции, поиск по монорепе | 1M+ |\n| **DeepSeek-V3 \u002F R1**, **Qwen3-Coder** | Open-weight, можно крутить локально\u002Fв своём VPC, сильный код | Self-hosted, sensitive code, бюджетные сценарии | 128K+ |\n| **Llama 3.x \u002F 4.x** (Meta) | Open-weight база для fine-tuning, экосистема | On-prem, кастомные кодинг-модели | 128K |\n\n> 💡 Правило большого пальца: **Claude — для долгой инженерной работы и агентов, GPT — для рассуждений и быстрых ответов, Gemini — когда нужно скормить весь репозиторий, open-weight — когда код нельзя отдавать наружу.**\n\n### 🛠️ Инструменты vibe coding (рабочий стек)\n\n**IDE-агенты и интегрированные среды:**\n- **[Claude Code](https:\u002F\u002Fwww.anthropic.com\u002Fclaude-code)** — CLI-агент от Anthropic, живёт в терминале, читает\u002Fпишет файлы, гоняет команды, держит контекст всего проекта. Топ для серьёзной работы.\n- **[Cursor](https:\u002F\u002Fcursor.com)** — IDE на форке VS Code, лучший автокомплит и agent-mode на рынке. Cmd+K для inline-правок, Cmd+L для чата с проектом, Composer для мультифайловых изменений.\n- **[Windsurf](https:\u002F\u002Fwindsurf.com)** (бывший Codeium) — конкурент Cursor с Cascade-агентом, хорош для крупных рефакторингов.\n- **[GitHub Copilot](https:\u002F\u002Fgithub.com\u002Ffeatures\u002Fcopilot)** + **Copilot Chat \u002F Workspace** — стандарт индустрии, теперь с агентным режимом и многомодельной поддержкой (Claude, GPT, Gemini).\n- **[Aider](https:\u002F\u002Faider.chat)** — open-source CLI-агент с git-интеграцией, каждое изменение = коммит. Любимец инди-разработчиков.\n- **[Cline](https:\u002F\u002Fcline.bot)** \u002F **[Roo Code](https:\u002F\u002Froocode.com)** — open-source агенты для VS Code, работают с любой моделью через API.\n\n**Чат-интерфейсы для архитектуры и обсуждений:**\n- **[Claude.ai](https:\u002F\u002Fclaude.ai)** — Projects (загрузка контекста), Artifacts (живые превью), Computer Use (агент управляет браузером).\n- **[ChatGPT](https:\u002F\u002Fchatgpt.com)** — Canvas для совместного редактирования, Code Interpreter, GPTs под задачу.\n- **[T3 Chat](https:\u002F\u002Ft3.chat)**, **[OpenRouter](https:\u002F\u002Fopenrouter.ai)** — мультимодельные интерфейсы, дешевле подписок.\n\n**Для агентов и автоматизации:**\n- **[LangChain](https:\u002F\u002Flangchain.com)** \u002F **[LlamaIndex](https:\u002F\u002Fllamaindex.ai)** — фреймворки для RAG и агентов.\n- **[CrewAI](https:\u002F\u002Fcrewai.com)**, **[AutoGen](https:\u002F\u002Fmicrosoft.github.io\u002Fautogen\u002F)** — мульти-агентные системы.\n- **[MCP (Model Context Protocol)](https:\u002F\u002Fmodelcontextprotocol.io)** — стандарт от Anthropic для подключения инструментов к LLM. Уже поддержан Claude, OpenAI, Cursor.\n\n### 🎯 Как ставить задачи LLM: prompting для кода\n\n**Базовая структура промпта для серьёзной задачи:**\n\n```\nКОНТЕКСТ: Что за проект, стек, ограничения.\nЦЕЛЬ: Что нужно получить на выходе (функция\u002FPR\u002Fархитектура).\nВВОД\u002FВЫВОД: Сигнатуры, типы, примеры.\nОГРАНИЧЕНИЯ: Производительность, зависимости, стиль.\nПРИМЕРЫ: 1–2 похожих куска из текущего кода.\nКРИТЕРИЙ ГОТОВНОСТИ: Тесты проходят \u002F соответствует ТЗ \u002F ревью OK.\n```\n\n**Техники, которые реально работают:**\n\n1. **Chain of Thought на старте.** «Сначала опиши план в 5 пунктах, потом пиши код» — резко снижает количество переделок.\n2. **Few-shot из своего кода.** Вставьте 1–2 примера в вашем стиле — модель скопирует конвенции (naming, errors, logging).\n3. **Reflection loop.** «Покажи код → найди 3 проблемы → исправь». Работает лучше, чем «напиши сразу идеально».\n4. **Test-first.** «Сначала тесты, потом реализация». Заставляет модель уточнить контракт.\n5. **Decomposition.** Большие задачи режьте на шаги. LLM теряется на «напиши мне приложение», но отлично делает «реализуй эндпоинт \u002Fapi\u002Fusers с такой-то схемой».\n6. **Show, don't tell.** Дайте ссылку на файл, скриншот ошибки, лог стектрейса. Не пересказывайте — копируйте.\n7. **Ограничьте контекст.** Не «вот весь репозиторий», а «вот эти 3 файла + интерфейс модуля X». Меньше шума → точнее ответ.\n\n**Антипаттерны (вы теряете время, если так делаете):**\n- «Напиши мне SaaS для X» без декомпозиции.\n- Игнорировать ошибки, которые модель явно показывает в комментариях.\n- Принимать первый ответ без чтения diff.\n- Не давать модели запускать тесты\u002Fлинтер (если есть агентный режим).\n- Менять модель посреди задачи — теряется контекст рассуждений.\n\n### 🔬 Реальные сценарии и боевые примеры (что делать каждый день)\n\nЭто не теория, а живой воркфлоу. Каждый сценарий — с готовым шаблоном промпта, который вы можете скопировать и подставить свои данные.\n\n---\n\n#### 1️⃣ Новая фича с нуля (от ТЗ до PR)\n\n**Цепочка:** `План в Claude → схема БД и API → тесты → реализация по модулям → ревью diff → правки → коммит`. На фичу средней сложности уходит 2–4 часа вместо 1–2 дней.\n\n**Шаблон промпта (этап «план»):**\n\n```\nКонтекст: backend на FastAPI + Postgres + SQLAlchemy 2.0, async.\nЗадача: добавить эндпоинт \u002Fapi\u002Forders с фильтрацией по статусу,\nсортировкой по дате и пагинацией (cursor-based).\nТребования:\n- авторизация через JWT (см. app\u002Fauth.py — приложу)\n- 200 RPS на одну инстанс\n- покрытие тестами ≥ 80%\n\nШаг 1: предложи план из 5–7 пунктов с декомпозицией на коммиты.\nШаг 2: укажи риски и edge-cases.\nШаг 3: жди моего ОК перед началом кода.\n```\n\n**Почему работает:** модель не бросается писать код, а сначала согласует архитектуру. Вы экономите 2 итерации переделок.\n\n---\n\n#### 2️⃣ Дебаг продового бага (Sherlock-mode)\n\n**Что даёте Claude:** стектрейс + 2–3 ключевых файла + краткое описание поведения. Просите 3 гипотезы и план диагностики. В 70% случаев он угадывает причину с первого раза.\n\n**Шаблон:**\n\n```\nСимптом: после деплоя версии 2.4.1 в проде растёт latency p99\nс 200 мс до 1.2 с на эндпоинте \u002Fapi\u002Fsearch.\nCPU и память в норме. Ошибок 5xx нет.\n\nПрикладываю:\n- стектрейс из APM (см. ниже)\n- diff между 2.4.0 и 2.4.1 (app\u002Fsearch\u002Fservice.py)\n- метрики БД за последние 24 часа\n\nДай 3 наиболее вероятные гипотезы (от сильной к слабой)\nс обоснованием. Для каждой — конкретные команды\u002Fзапросы для проверки.\nНе пиши код, пока не выберем гипотезу.\n```\n\n**Pro tip:** если первая гипотеза не подтвердилась — не уходите в новый чат, скажите модели «гипотеза 1 отпала, вот данные эксперимента, обновляй приоритеты».\n\n---\n\n#### 3️⃣ Рефакторинг легаси на 2000+ строк\n\n**Инструмент:** Cursor Composer или Claude Code — потому что нужны мультифайловые правки и удержание контекста.\n\n**Шаблон:**\n\n```\nФайл: app\u002Flegacy\u002Fbilling.py (2147 строк, написан в 2019, без тестов).\nЦель: разнести на чистые слои (domain \u002F service \u002F repository \u002F adapters),\nсохранить публичный API (см. список функций в __all__),\nпокрыть тестами критичные пути (расчёт, налоги, возвраты).\n\nПлан работы:\n1. Сначала характеризационные тесты на текущее поведение (golden master).\n2. Извлечение domain-моделей (dataclasses, без зависимостей).\n3. Выделение repository (всё, что ходит в БД).\n4. Service-слой (бизнес-логика).\n5. Adapters (внешние API: Stripe, налоговая).\n\nРаботаем итерациями по 200–300 строк. После каждого шага:\n- запускаешь тесты (pytest -x)\n- показываешь diff\n- ждёшь моего ОК перед следующим шагом.\n```\n\n**Ключевой момент:** характеризационные тесты в начале. Без них рефакторинг = русская рулетка.\n\n---\n\n#### 4️⃣ Чтение и понимание чужой кодбазы\n\n**Инструмент:** Gemini 2.x Pro (1M контекст) или Claude Projects с загруженным репо. Альтернатива — Aider `\u002Fmap` или Cursor `@codebase`.\n\n**Воркфлоу:**\n\n```\n1. «Опиши архитектуру проекта в 1 абзаце + диаграмма (Mermaid)».\n2. «Где обрабатывается логин пользователя? Покажи путь от роута до БД».\n3. «Какие точки расширения есть в модуле X? Где обычно добавляют новые провайдеры?».\n4. «Найди мёртвый код: функции, которые нигде не вызываются».\n5. «Что сломается, если я переименую User.email в User.contact_email?».\n```\n\nЗа час разбираетесь в проекте, на изучение которого ушла бы неделя.\n\n---\n\n#### 5️⃣ Перевод между языками и фреймворками\n\n**Типовые маршруты:** Python → Go (для перформанса), Express → FastAPI, React (CRA) → Next.js, REST → GraphQL, monolith → микросервисы.\n\n**Шаблон:**\n\n```\nПерепиши модуль из Python (FastAPI) в Go (Gin), сохраняя:\n- логику обработки заказов (см. orders.py)\n- JSON-схему ответов (snake_case → snake_case через теги)\n- семантику ошибок (HTTP-коды и тела)\n\nПринципы перевода:\n- идиоматичный Go (errors.Is, context, structured logging via slog)\n- никаких прямых калек с Python (no exceptions, only error returns)\n- генерация типов из OpenAPI, если есть\n\nПокажи план перевода, потом перенос по файлам.\n```\n\n**Реальная экономия:** черновик 80% качества за 30 минут вместо 2 дней ручного переписывания.\n\n---\n\n#### 6️⃣ Тесты, доки, миграции (рутина, которую больше не пишем руками)\n\n**Pytest на готовый код:**\n```\nПокрой тестами файл app\u002Fservices\u002Fpayment.py:\n- 100% веток (branch coverage)\n- параметризованные тесты для всех валидаций\n- mock внешних API (Stripe) через respx\n- snapshot-тесты для сериализаторов\nИспользуй pytest-asyncio и factory-boy. Стиль — см. tests\u002Fconftest.py.\n```\n\n**Docstrings и README:**\n```\nСгенерируй Google-style docstrings для всех публичных функций\nфайла X. Также добавь usage-секцию в README с 3 примерами.\n```\n\n**Alembic-миграция:**\n```\nСгенерируй миграцию: добавить поле phone (varchar 20, nullable)\nв users, индекс по phone, бэкфилл из profiles.phone_number\nбатчами по 10000 строк. Учти, что таблица 50M строк, миграция\nдолжна быть online (без блокировок).\n```\n\n---\n\n#### 7️⃣ Архитектурный спарринг\n\n**Когда:** перед началом большой задачи, при выборе стека, при дизайне сложного компонента.\n\n**Шаблон:**\n\n```\nЗадача: построить real-time ленту уведомлений (web + mobile),\n100K активных пользователей, p95 доставки ≤ 2 сек.\n\nТекущий стек: Python, Postgres, Redis, AWS.\nКоманда: 3 backend, 2 mobile, без отдельных infra.\n\nПредложи 3 архитектурных подхода:\n1. Polling + Redis Streams\n2. WebSocket + Pub\u002FSub (Redis или Kafka)\n3. Push-сервис (Pusher \u002F Ably \u002F SNS+APNS\u002FFCM)\n\nДля каждого — стоимость, сложность, риски, время на MVP.\nНе выбирай за меня, дай таблицу сравнения.\n```\n\n**Что НЕ делать:** не принимать первый ответ как истину. LLM — собеседник, а не оракул. Прогоните идею через коллегу.\n\n---\n\n#### 8️⃣ Code review своего PR перед отправкой\n\n```\nСделай ревью моего PR (diff приложен).\nЧек-лист:\n1. Безопасность (SQL injection, XSS, secrets в коде).\n2. Производительность (N+1 запросы, лишние аллокации).\n3. Обработка ошибок (что произойдёт при таймауте\u002F5xx от внешнего API?).\n4. Тесты (что не покрыто? какие edge-cases пропущены?).\n5. Читаемость (имена, длина функций, дублирование).\n6. Совместимость API (ломаем ли мы клиентов?).\n\nВыдай результат в формате: 🔴 блокеры \u002F 🟡 нит-пики \u002F 🟢 что хорошо.\n```\n\nЗапускайте перед отправкой PR — получите ревью на 3–5 минут раньше, чем коллеги.\n\n---\n\n#### 9️⃣ Изучение новой технологии за вечер\n\n```\nЯ backend-разработчик с 5 годами Python.\nХочу за вечер въехать в Rust на уровне «могу читать чужой код\nи писать простой CLI».\n\nПлан:\n1. Карта концептов: что нового по сравнению с Python (ownership, borrowing, lifetimes, traits, enums-as-ADT).\n2. 5 ключевых отличий, на которых спотыкаются Python-разработчики.\n3. Мини-проект: переписать вот этот Python-скрипт (приложу) в Rust.\n4. Чек-лист «понял\u002Fне понял» в конце.\n\nОбъясняй через аналогии с Python. Без воды.\n```\n\n---\n\n#### 🔟 Pet-проект «вечер пятницы» (полный AI-воркфлоу)\n\n```\nХочу за 3 часа сделать Telegram-бота, который:\n- принимает голосовое сообщение\n- транскрибирует через Whisper\n- саммаризирует через Claude\n- отправляет краткий текст обратно\n\nСтек: Python + aiogram 3 + httpx.\nДеплой: Fly.io (бесплатный tier).\n\nДекомпозируй на 6 шагов по 30 минут. На каждом шаге:\n- что сделать\n- какой код написать (с тестом «работает \u002F не работает»)\n- частые грабли.\n\nВ конце — чек-лист продакшен-готовности (логи, ошибки, rate limits, секреты).\n```\n\n**Закон вайбкодинга:** если задача укладывается в один вечер с LLM — делайте сегодня, не откладывайте. Это лучший способ нарастить «насмотренность».\n\n---\n\n### ⚠️ Ограничения и подводные камни\n\n- **Галлюцинации API.** Модель уверенно зовёт несуществующие методы. Спасает: давать актуальные доки в контекст, использовать tool use со встроенным веб-поиском.\n- **Дрейф стиля.** Без few-shot из вашего кода LLM пишет «среднеинтернетный» код. Лечится загрузкой 1–2 эталонных файлов.\n- **Безопасность.** Не отдавайте ключи, токены, PII даже в платных API. Используйте локальные модели (DeepSeek, Qwen, Llama) для чувствительного кода.\n- **Каскад ошибок.** Если модель ошиблась в начале — она будет защищать ошибку. Лечится «откатись и подумай заново», новой сессией, сменой модели.\n- **Context rot.** На длинных сессиях качество падает. Лечится сжатием контекста, переходом в новую сессию с кратким summary.\n- **Юридические риски.** Лицензии генерируемого кода — серая зона. Для коммерческого продукта читайте политики провайдера.\n- **Когнитивная атрофия.** Если только промптите и не думаете — навыки деградируют. Раз в неделю пишите что-то руками без LLM.\n\n### 📚 Курсы и материалы по AI-инжинирингу и vibe coding\n\n**Бесплатно (must-have):**\n- **[Anthropic — Prompt Engineering Interactive Tutorial](https:\u002F\u002Fgithub.com\u002Fanthropics\u002Fprompt-eng-interactive-tutorial)** — официальный курс от создателей Claude. Лучший старт по промптингу.\n- **[Anthropic — Building with Claude (docs + cookbook)](https:\u002F\u002Fdocs.anthropic.com)** — официальные гайды, рецепты, tool use, агенты.\n- **[Anthropic Skilljar Academy](https:\u002F\u002Fanthropic.skilljar.com)** — бесплатные курсы по Claude Code, AI fluency, агентам.\n- **[OpenAI Cookbook](https:\u002F\u002Fcookbook.openai.com)** — рабочие примеры по GPT, function calling, RAG, fine-tuning.\n- **[DeepLearning.AI — короткие курсы](https:\u002F\u002Flearn.deeplearning.ai)** — десятки 1–2-часовых курсов: ChatGPT Prompt Engineering for Developers, LangChain, Building Agents, MCP и др. Бесплатно.\n- **[Hugging Face — Agents Course](https:\u002F\u002Fhuggingface.co\u002Flearn\u002Fagents-course)** — полный курс по AI-агентам, бесплатно с сертификатом.\n- **[Cursor Docs + Forum](https:\u002F\u002Fdocs.cursor.com)** — практические гайды по работе в Cursor.\n- **[Aider — Tips & Best Practices](https:\u002F\u002Faider.chat\u002Fdocs\u002Fusage\u002Ftips.html)** — концентрат опыта по работе с CLI-агентом.\n\n**На русском:**\n- **[@ai_machinelearning_big_data](https:\u002F\u002Ft.me\u002Fai_machinelearning_big_data)** — регулярные разборы новых релизов и техник.\n- **[Хабр — тег «промпт-инжиниринг»](https:\u002F\u002Fhabr.com\u002Fru\u002Fsearch\u002F?q=промпт-инжиниринг)** — практические статьи от русскоязычного коммьюнити.\n- YouTube-каналы: ищите разборы Claude Code, Cursor, агентных воркфлоу — экосистема растёт быстро.\n\n**Платно (если готовы инвестировать):**\n- **[Maven — AI Engineering cohorts](https:\u002F\u002Fmaven.com)** — короткие интенсивы от практиков (LLM в проде, RAG, агенты).\n- **[Scrimba — AI Engineering Path](https:\u002F\u002Fscrimba.com)** — интерактивные курсы по работе с LLM API.\n- Книги: **«AI Engineering»** (Chip Huyen, 2025), **«Designing Machine Learning Systems»** (Chip Huyen), **«Prompt Engineering for LLMs»** (O'Reilly).\n\n### 🏆 Уровни мастерства vibe coding\n\n| Уровень | Что умеет | Сколько времени до него |\n|---|---|---|\n| 🥉 **Новичок** | Спрашивает ChatGPT функции, копирует код, не читает diff | 1 неделя |\n| 🥈 **Уверенный пользователь** | Cursor\u002FCopilot в IDE, структурированные промпты, тесты | 1–2 месяца практики |\n| 🥇 **Продвинутый** | Агенты (Claude Code, Aider), мультифайловые правки, RAG над своим кодом | 3–6 месяцев |\n| 💎 **Эксперт** | Кастомные агенты, MCP-серверы, fine-tuning под свой стиль, ведёт фичи end-to-end с LLM | 6–12 месяцев |\n| 🧙 **Guru** | Строит AI-first продукты, понимает как модель «думает» изнутри, может объяснить ошибки через архитектуру трансформера | 1–2 года + ML база |\n\n### 🎓 Путь к «vibe coding guru»: 90-дневный план\n\n**Дни 1–30 — фундамент:**\n- Пройти Anthropic Prompt Engineering Tutorial.\n- Поставить Cursor \u002F Claude Code, сделать 3 пет-проекта (CRUD, парсер, бот).\n- Прочитать OpenAI Cookbook по function calling.\n- Освоить structured prompting (контекст → цель → ограничения → критерий).\n\n**Дни 31–60 — агенты и RAG:**\n- Пройти DeepLearning.AI «Building Agents» и Hugging Face Agents Course.\n- Сделать RAG-бота над своими заметками\u002Fдоками (LangChain или LlamaIndex).\n- Подключить MCP-сервер к Claude Code, написать свой инструмент.\n- Освоить мультифайловые правки в Cursor Composer \u002F Aider.\n\n**Дни 61–90 — прод и глубина:**\n- Деплой LLM-приложения в прод (FastAPI + Claude\u002FGPT + векторная БД).\n- Eval-framework: измеряйте качество ответов (RAGAS, promptfoo).\n- Прочитать «AI Engineering» Chip Huyen.\n- Завести технический блог: 1 статья в неделю про свой опыт.\n- Изучить базу трансформеров (Karpathy «Let's build GPT» на YouTube) — чтобы понимать, **почему** LLM ведёт себя так, а не иначе.\n\n> 🧙 К концу 90 дней вы умеете делать с L","这个项目提供了一个全面的机器学习学习路线图，旨在帮助学习者从零基础成长为能够理解和构建生产级系统的AI工程师。它覆盖了从机器学习、深度学习的基础知识到LLM（大语言模型）、生成式AI以及MLOps等高级主题，并强调实践能力如fine-tuning模型和prompt engineering。特别适合那些希望系统性地掌握人工智能技术并应用于实际工作场景中的开发者、学生及转行人士使用。通过遵循这份指南，用户不仅能获得理论知识，还能增强解决复杂问题的能力，为成为数据科学家或机器学习工程师打下坚实基础。",2,"2026-06-11 03:56:07","CREATED_QUERY"]