Как беспилотные автомобили понимают, где заканчивается дорога и начинается тротуар, а нейросети — где в трёхмерном облаке точек находится дерево, а где — столб освещения? Секрет кроется в семантической сегментации: алгоритм должен присвоить каждому из миллионов лазерных отражений свою метку. Но классические методы часто спотыкаются на сложных сценах: плотность точек неравномерна, объекты перекрывают друг друга, а похожие геометрические формы (например, изгородь и куст) легко перепутать. Группа исследователей из МИИГАиК (с китайскими коллегами) предложила эффективное решение — гибридную нейросеть PG‑Net, которая объединяет сразу два подхода к анализу трёхмерных данных.
В отличие от большинства существующих сетей, PG‑Net не просто смотрит на каждую точку отдельно и не ограничивается связями «точка-сосед». У неё два параллельных «зрения». Первое, точечное, обрабатывает координаты и цвет с помощью умного модуля, который усиливает локальные особенности и не даёт запутаться в почти одинаковых фрагментах. Второе, графовое, строит динамическую карту взаимосвязей между соседними точками и, что важнее, между соседями одного и того же центра — своего рода «треугольники» отношений. Это позволяет видеть тонкую структуру там, где точки разряжены или зашумлены. Дальше сеть не просто складывает два потока информации, а с помощью специального динамического взвешивания сама решает, насколько доверять собственным признакам точки, а насколько — контексту окружения. Вдобавок новый обучающий «агрегационный» штраф заставляет обе ветви сети учить действительно разные, взаимодополняющие представления, а не дублировать одно и то же.
Результаты впечатляют. На уличном датасете Toronto3D (миллионы точек с реальных дорог Канады) PG‑Net достиг общей точности 97,7% и средней точности пересечения по всем классам 83,5%, обойдя такие известные архитектуры, как RandLA‑Net и даже базовую LACV‑Net. Особенно силён алгоритм оказался на сложных объектах: автомобили, дорожная разметка и заборы — там точность подскочила на внушительные проценты. На внутреннем наборе S3DIS (сотни комнат с мебелью) сеть также показала лучшие результаты по стенам, балкам, столам и захламлённым зонам. Важно, что улучшение качества не потребовало гигантских вычислительных мощностей: по сравнению с предшественником PG‑Net добавляет всего 0,26 миллиона параметров и немного больше операций с плавающей запятой, зато сходится почти на треть быстрее — 67 эпох против 93. Это значит, что модель можно обучать заметно дешевле и быстрее.
У новой архитектуры есть и практические ограничения. Сейчас она использует фиксированное число соседей для каждого узла графа, а в местах с резко меняющейся плотностью точек (например, вдалеке или за углом) это может быть неоптимально. Также слияние двух ветвей пока довольно простое — всего лишь конкатенация и обычный перцептрон. И хотя PG‑Net весьма эффективен, его двойная структура всё же потребляет больше ресурсов, чем одиночные сети, что важно для бортовых систем автономных автомобилей. Тем не менее авторы уже нацелены на создание облегчённых версий и более умных модулей слияния.
Главный же вывод звучит обнадёживающе: союз точечного и графового подходов — не просто ещё один шаг в гонке процентов, а принципиально более надёжный способ понимать трёхмерный мир. Теперь беспилотные машины и роботизированные картографы смогут лучше различать хрупкое ограждение от сплошной стены, а умные города — точнее строить свои цифровые двойники.
Источник: Минобрнауки России


