Раздел исследований

Машинное обучение

Систематический анализ алгоритмов, позволяющих программам улучшать результат без явного перепрограммирования

Классификация

Типология алгоритмов

Сравнительный анализ двух фундаментальных парадигм обучения

Параметр Обучение с учителем Обучение без учителя
Входные данные Размеченные (labeled) пары «вход—выход» Неразмеченные массивы данных
Цель Построение функции отображения X → Y Обнаружение скрытых структур и паттернов
Типичные задачи Классификация, регрессия, детекция Кластеризация, снижение размерности, ассоциации
Алгоритмы Линейная регрессия, SVM, Random Forest, нейросети K-Means, DBSCAN, PCA, автоэнкодеры
Метрики качества Accuracy, F1, RMSE, AUC-ROC Silhouette score, DB-index, inertia
Стоимость разметки Высокая — требуется экспертная аннотация Минимальная — работа с сырыми данными
Пример из РК Диагностика заболеваний по медснимкам (Алматы) Сегментация потребителей энергоресурсов (Астана)
Теория

Математика прогноза

Ключевые концепции регрессии и классификации

Линейная регрессия моделирует зависимость целевой переменной Y от предикторов X через линейную комбинацию весов: ŷ = w₀ + w₁x₁ + ... + wₙxₙ. Оптимальные веса определяются минимизацией среднеквадратичной ошибки (MSE) методом наименьших квадратов или градиентного спуска. Несмотря на кажущуюся простоту, метод остаётся базовым инструментом для интерпретируемого прогнозирования — от оценки стоимости недвижимости до предсказания урожайности в аграрном секторе Казахстана.
Для бинарной классификации линейная модель оборачивается сигмоидной функцией σ(z) = 1/(1+e⁻ᶻ), преобразующей непрерывный выход в вероятность принадлежности к классу. Порог 0.5 разделяет пространство признаков на два региона. Обучение ведётся через максимизацию правдоподобия (cross-entropy loss). Метод широко применяется в скоринговых системах банков, медицинской диагностике и системах обнаружения аномалий.
Дерево решений разбивает пространство признаков рекурсивными бинарными правилами, выбирая на каждом шаге наиболее информативный предиктор (по критериям Gini или Entropy). Ансамблевые методы — Random Forest (бэггинг) и Gradient Boosting (бустинг) — объединяют десятки и сотни деревьев для снижения дисперсии и смещения. XGBoost и LightGBM остаются стандартом промышленного ML для табличных данных.
Переобучение возникает, когда модель запоминает шум в обучающей выборке вместо истинных закономерностей. L1-регуляризация (Lasso) обнуляет незначимые веса, обеспечивая отбор признаков. L2-регуляризация (Ridge) штрафует большие веса, сглаживая функцию прогноза. Elastic Net комбинирует оба подхода. Dropout в нейросетях случайно деактивирует нейроны во время обучения, заставляя сеть формировать более робастные представления.
Практика

Лабораторный отчёт

Кейсы применения ML в медицине и экологии Казахстана

Горизонты

Тренды ML в 2026 году

Foundation Models

Фундаментальные модели — предобученные на гигантских корпусах данных архитектуры, адаптируемые к конкретным задачам через fine-tuning или prompt engineering. GPT-класс моделей продемонстрировал способность к zero-shot обобщению, ставя под вопрос традиционное деление на отдельные ML-задачи. Для Казахстана актуальна адаптация подобных моделей к казахскому и русскому языковым корпусам.

Federated Learning

Федеративное обучение позволяет тренировать модели на распределённых данных без их централизации. Каждый узел обучает локальную копию модели и передаёт серверу только обновления градиентов. Подход критически важен для медицинских и финансовых данных, где централизованное хранение нарушает законодательство о персональных данных РК (Закон №94-V от 2013 года).