Neural Horizon | Машинное обучение

Классификация

Типология алгоритмов

Сравнительный анализ двух фундаментальных парадигм обучения

Параметр	Обучение с учителем	Обучение без учителя
Входные данные	Размеченные (labeled) пары «вход—выход»	Неразмеченные массивы данных
Цель	Построение функции отображения X → Y	Обнаружение скрытых структур и паттернов
Типичные задачи	Классификация, регрессия, детекция	Кластеризация, снижение размерности, ассоциации
Алгоритмы	Линейная регрессия, SVM, Random Forest, нейросети	K-Means, DBSCAN, PCA, автоэнкодеры
Метрики качества	Accuracy, F1, RMSE, AUC-ROC	Silhouette score, DB-index, inertia
Стоимость разметки	Высокая — требуется экспертная аннотация	Минимальная — работа с сырыми данными
Пример из РК	Диагностика заболеваний по медснимкам (Алматы)	Сегментация потребителей энергоресурсов (Астана)

Теория

Математика прогноза

Ключевые концепции регрессии и классификации

Линейная регрессия моделирует зависимость целевой переменной Y от предикторов X через линейную комбинацию весов: ŷ = w₀ + w₁x₁ + ... + wₙxₙ. Оптимальные веса определяются минимизацией среднеквадратичной ошибки (MSE) методом наименьших квадратов или градиентного спуска. Несмотря на кажущуюся простоту, метод остаётся базовым инструментом для интерпретируемого прогнозирования — от оценки стоимости недвижимости до предсказания урожайности в аграрном секторе Казахстана.

Для бинарной классификации линейная модель оборачивается сигмоидной функцией σ(z) = 1/(1+e⁻ᶻ), преобразующей непрерывный выход в вероятность принадлежности к классу. Порог 0.5 разделяет пространство признаков на два региона. Обучение ведётся через максимизацию правдоподобия (cross-entropy loss). Метод широко применяется в скоринговых системах банков, медицинской диагностике и системах обнаружения аномалий.

Дерево решений разбивает пространство признаков рекурсивными бинарными правилами, выбирая на каждом шаге наиболее информативный предиктор (по критериям Gini или Entropy). Ансамблевые методы — Random Forest (бэггинг) и Gradient Boosting (бустинг) — объединяют десятки и сотни деревьев для снижения дисперсии и смещения. XGBoost и LightGBM остаются стандартом промышленного ML для табличных данных.

Переобучение возникает, когда модель запоминает шум в обучающей выборке вместо истинных закономерностей. L1-регуляризация (Lasso) обнуляет незначимые веса, обеспечивая отбор признаков. L2-регуляризация (Ridge) штрафует большие веса, сглаживая функцию прогноза. Elastic Net комбинирует оба подхода. Dropout в нейросетях случайно деактивирует нейроны во время обучения, заставляя сеть формировать более робастные представления.

Практика

Лабораторный отчёт

Кейсы применения ML в медицине и экологии Казахстана

Ранняя диагностика туберкулёза

Совместный проект Neural Horizon и Республиканского диагностического центра (Алматы) — свёрточная нейросеть для анализа рентгенограмм грудной клетки. Модель, обученная на 45 000 аннотированных снимках, достигла чувствительности 94.2% при специфичности 97.1%, сократив время первичного скрининга с 8 минут до 1.2 секунды на случай. Проект позволил выявить 340 ранее пропущенных случаев в рамках пилотного тестирования в двух районных поликлиниках.

Мониторинг Аральского региона

Спутниковые данные Sentinel-2 обрабатываются моделью на основе U-Net для сегментации зон опустынивания в Кызылординской области. Алгоритм отслеживает динамику вегетационного индекса NDVI с 2015 года, формируя карту деградации почв с пространственным разрешением 10 метров. Результаты переданы Министерству экологии РК для корректировки программ рекультивации и оценки эффективности лесозащитных полос.

Прогнозирование качества воздуха

Рекуррентная LSTM-сеть анализирует данные с 18 станций мониторинга загрязнения воздуха в Алматы. Модель прогнозирует концентрацию PM2.5 на 72 часа вперёд с точностью MAE = 8.3 мкг/м³. Интеграция метеорологических параметров (инверсионные слои, скорость ветра) повысила предсказательную способность на 23% по сравнению с базовой авторегрессионной моделью.

Горизонты

Тренды ML в 2026 году

Foundation Models

Фундаментальные модели — предобученные на гигантских корпусах данных архитектуры, адаптируемые к конкретным задачам через fine-tuning или prompt engineering. GPT-класс моделей продемонстрировал способность к zero-shot обобщению, ставя под вопрос традиционное деление на отдельные ML-задачи. Для Казахстана актуальна адаптация подобных моделей к казахскому и русскому языковым корпусам.

Federated Learning

Федеративное обучение позволяет тренировать модели на распределённых данных без их централизации. Каждый узел обучает локальную копию модели и передаёт серверу только обновления градиентов. Подход критически важен для медицинских и финансовых данных, где централизованное хранение нарушает законодательство о персональных данных РК (Закон №94-V от 2013 года).