Точность моделирования в массовой оценке.
Ю.Кочетков, к.ф.-м.н., Центр Анализа Рынков Недвижимости (ЦАРН)
Тел. (095) 232-15-41; Е-mail: crea@aha.ru.
ВВЕДЕНИЕ
Проблема точности всегда возникает там, где делается попытка описать реальный процесс на формализованном языке (обычно, это язык математики). Это касается и моделирования рынка недвижимости. Не вызывает сомнения, что, так или иначе, рынок недвижимости на данный момент в России управляется объективными законами, которые можно описать, в т.ч. и оценить уровень надежности этого описания.
Со стороны государственных структур (да и некоторых частных компаний) в последнее время наблюдается тенденция к пониманию важности точной оценки объектов недвижимости. Государство теперь выступает как собственник, заинтересованный в получении максимального дохода, особенно это касается налоговых и арендных сборов, но при этом оно не заинтересованно в сокращении числа продаж и аренды, вследствие завышения цены. Особенно ярко это проявляется при оценке имущества предприятий и крупных частных компаний для целей налогообложения. В то время как недооценка ведет к недополучению сборов, переоценка способна заставить свернуть деятельность компании, или вынудит предприятие к бюджетным неплатежам.
Помимо этого, государственным структурам, как правило, требуется т.н. массовая оценка, особенно это касается области налогообложения и местных сборов, что вызвало к развитию в России компьютеризованной массовой оценки (КМО), которая успешно решает поставленные задачи. В течение 1996-1998 годов был создан ряд моделей массовой оценки, на которых базировались соответствующие методики. При этом четко обрисовались основные области КМО для государственных структур: расчет арендной платы за помещения, оценка объектов для целей налогообложения, кадастровая оценка земельных участков. Несомненно, список этим не ограничивается, в будущем намечается распространение КМО в области страховой оценки, кредитования под залог и ипотеки, инвестиционных проектов.
Несколько лет назад, КМО проникла и в деятельность риэлтерских и оценочных фирм, однако широкого распространения не получила, что было связано как с невостребованностью рынком, так и с недостаточной устойчивостью и точностью моделей того времени. К сожалению, пользователями не принималась в расчет та информация, которая была заложена внутри самих моделей, как-то - объективные поправки на различные факторы, ценовое деление города на зоны и т.п., т.к. основное внимание (и, соответственно, претензии) уделялось той цифре, которая именуется оценкой рыночной стоимости объекта. Сама по себе, модель не может являться идеальной, так как она уже изначально базируется не
на 100% рыночной информации, некорректные сделки, нерепрезентативность базы данных приводит к тому, что в 9 случаях модель дает близкие к идеальным цифры, но в десятом - т.н. выброс. Особенно это часто происходит на т.н. уникальных объектах. Однако нигде в мире и, практически, ни в одной сфере деятельности результаты моделирования процессов не используются как данные a priori, стандартная практика - это контроль и дополнительный анализ со стороны специалиста (чаще всего - на уровне здравого смысла). И, фактически, всегда за результатом следует оценка погрешности.В основной части статьи мы кратко рассмотрим сам процесс построения модели в КМО и постараемся выявить причины погрешностей оценки. Это даст возможность оценить и перспективы КМО как основного инструмента оценщика высокого уровня. Надеемся, что статья окажет необходимую помощь тому специалисту, который решил перейти на более высокий уровень оценки и анализа рынка недвижимости.
КМО И ОЦЕНКА ПОГРЕШНОСТИ.
Как было отмечено в [1] построение модели можно разбить на несколько этапов: анализ рынка и сбор данных; формирование базы данных; создание модели; калибровка коэффициентов. Поэтапно разберем истоки возникновения погрешности оценки
e .На первом этапе проводится анализ рынка и сбор данных. Фактически, основные выводы этого этапа и будут первоначально определять структуру модели, а также систему кодировки качественных факторов. Здесь выясняется - какие факторы оказывают основное или второстепенное влияние на цену сделки, до какой глубины детализации имеет смысл рассматривать тот или иной фактор. Однако здесь возникает впервые понятие цены для каждой сделки. Её корректность, соответствие реальной ситуации не всегда однозначно. Опустим возможность предоставления заведомо ложной информации, хотя это иногда имеет место, особенно при использовании официальных источников. В конце концов, существует процедура фильтра, задача которой - выявлять такие сделки. Гораздо важнее т.н. шум сделки
e 0, связанный с тем, что цена сделки естественно варьируется в небольших пределах, в зависимости от агента и сторон сделки, времени экспозиции, способа округления суммы и прочих недетерменированных факторов. Как указывалось выше, один и тот же объект может быть продан с помощью разных агентов за немного различные суммы. Фактически, моделирование после этого ведется не относительно подлинно рыночных цен Y (понимаемых как среднее по ряду подобных гипотетических сделок), а по установленным ценам конкретных сделок:Y' = Y + e 0 (1)
В принципе, этой погрешностью (e 0) можно пренебречь в случае хорошо развитого рынка и большого числа собранных сделок, но во всех других ситуациях, в особенности если используются цены предложений или случая аренды, где часто используется грубое округление, эта погрешность вносит значительный вклад в общую погрешность КМО.
На втором этапе формируется база данных. Сделки формализуются, создаются основные поля базы, причем каждое поле соответствует фактору. На этом этапе погрешность возникает на уровне формализации. К примеру, фактор стены дома задается как панель, блок, кирпич, дерево и комбинированная стена. В последнее значение будут попадать и дома с кирпичным первым этажом, деревянным - вторым, и деревянные дома покрытые штукатуркой и пр. Выделять в отдельные значения поля такие стены не имеет смысла по причине низкой репрезентативности. Подобное огрубление имеет место и внутри каждого значения - виды кирпичей тоже весьма различается между собой. Сходная причина погрешности - отброс нерепрезентативных и малозначимых факторов, т.е. уменьшение полного числа факторов. Погрешность этого вида обозначим - e f. Отметим, что природа e 0 и e f одна и та же - недоучет ряда факторов, но если первую погрешность невозможно вычленить в чистом виде, то вторая достаточно определена, и нередко производится уточнение и дополнительный сбор по нерепрезентативным факторам с целью введения их в модель. Для упрощения анализа их можно объединить - e 0(e f).

Рис.1. Эффект снижения стоимости кв.м. общей площади для крупных объектов.
Третий этап - выбор вида модели, создание поправок на значения факторов, формирование дополнительных переменных и, наконец, создание самой модели. Погрешность здесь возникает вследствие любого неточного шага, однако, она находится под контролем моделиста, в его распоряжении набор методов и статистик, характеризующих качество его модели. Как показывает опыт, на этом этапе гораздо опаснее неустойчивость модели по значениям факторов, чем погрешность выбора более грубой, но устойчивой модели. Как пример можно привести введение нелинейных зависимостей по значениям какой-либо характеристики, скажем, площади объекта. Известно, что стоимость кв.м. площади падает с увеличением объекта. Введение степенной поправки S
a отражает этот процесс, однако для малых значений площади происходит обратный эффект - цена кв.м. сильно возрастает, это отражено на рис.1. Вдобавок, для очень крупных объектов поправка будет чрезмерно сильной, т.е. снижать стоимость кв.м. площади в 3-10 раз, что не адекватно реальной ситуации.Естественно, гораздо лучше принять более сложный вид зависимости, однако, откалибровать ее будет крайне сложно. Особенно это замечание касается небольших выборок, здесь выявленная нелинейность может быть следствием случайного совпадения. В целом, сложность модели должна соответствовать величине выборки.
В принципе, в этой статье мы ограничимся рассмотрением случая достаточно большой репрезентативной базы данных. Оценить возникновение погрешности вследствие недостаточного объема базы в общем случае трудно, обычно здесь пользуются понятием доверительного интервала. Также мы отбросим проблему выбросов в базе данных, способных повлиять на качество моделирования.
Таким образом, основным видом погрешности здесь остается погрешность процесса моделирования, связанная с неадекватным отражением реальной ситуации структурой модели, заложенными в нее внутренними связями факторов, наконец, заведомым огрублением модели. Обозначим эту погрешность
e м.На этапе калибровки возникает последний вид погрешности (отметим - он отсутствует для множественной линейной регрессии (МЛР или МРА - множественный регрессионный анализ)), связанный с выбором вектора начальных значений для итеративных методов, с числом отброшенных фильтром данных, наконец, с числом итераций. Выделять ее отдельно - не имеет смысла, по сути - эта погрешность может быть включена в
e м.Теперь формализуем задачу: пусть рыночная стоимость объекта
Y зависит от полного набора Xtot факторов и характеристик объекта, а также рыночной ситуации по абсолютному объективному закону:Y = F(Xtot) (2)
Однако, в базу данных попадают только цены сделок
Y' по формуле (1), обозначим построенную модель по ограниченному набору факторов Х1 и характеристик как f(X1). В принципе, база данных описывается следующим соотношением:Y' = f(X1) + e db (3)
где
e db - абсолютная погрешность модели описывающей базу данных, которая прямо определяется вышеуказанными погрешностями e f, e м, и косвенно связана через погрешность моделирования e м с e 0. Эта погрешность e db напрямую определяется при помощи стандартных статистических коэффициентов R2, COV, COD, наиболее удобным для анализа погрешности является использование дисперсии D = s 2 [2], в данном случае мы имеем дело с т.н. средней квадратичной погрешностью оценки
(4)
которая напрямую связана с COV (здесь суммирование ведется по числу сделок -
n). Применяя формулу к реальным объектам, мы имеем дело со следующим соотношением:Y = f(X1) + e abs (5)
где
e abs - абсолютная погрешность модели описывающей реальную ситуацию. В результате, задача ставится следующим образом: оценить e abs исходя из набора статистик по e db.К сожалению, точно решить эту задачу для произвольной ситуации невозможно. Мы подойдем к оценке анализируя крайние случаи для соотношения (1) + (3):
Y + e 0 = f(X1) + e db (6)
Приведем следующие формальные рассуждения:
А) Предположим, что шум
e 0 является полностью независимым по отношению к факторам группы X1 и удовлетворяет требованию нормального распределения, тогда, в соответствии с правилами сложения дисперсий s (f-Y)2 = s abs2 = s 02 + s db2, здесь квадратичные погрешности относятся к соответствующим ошибкам e . Для иллюстрации предположим, что в ходе анализа рынка квартир установлено, что в зависимости от ряда субъективных факторов цена квартир может варьироваться в пределах до ± 5% и соответствующая относительная погрешность s /Yср составляет 3.5%. В процессе моделирования базы данных установлено, чтоs
db/f(X1) составляет 8% и оценка является не смещенной, т.е. f(X1) = Y'ср = Yср, отсюда по формуле (4) - s abs = 8.7%.Б) Предположим, что шум
e 0 является либо детерменирован по неизвестному закону факторами, либо является частичной (или однозначной) причиной возникновения ошибки e db, такая ситуация возможна, когда, скажем, e 0 из формулы (6) линейно зависим от X1. В этом случае, e 0 отражается e f или e м, и искомая погрешность s abs близка или совпадает с s db.По сути дела, в гипотетической ситуации, когда математико-статистические методы позволяют вычленять шум левой части
e 0, при условии точно заданного вида зависимости Y = f(X1) (мы рассматриваем уравнение (6)), ошибка оценки отсутствует. Однако, в реальной ситуации мы не имеем право априорно задавать вид зависимости и набор факторов и погрешность снова будет на уровне s db. Основное различие между ситуацией в точных науках, когда обработка экспериментальных данных, напр. методами Фурье-анализа, позволяет выделить т.н. сигнал с большой точностью и моделированием рынка связано с тем, что в первом случае методы обработки не подвержены влиянию этого шума, в то время как в моделировании шум искажает саму модель и значения коэффициентов.Для решения этой проблемы были смоделированы обе ситуации 1) и 2).
За основу модельной б/д была взята реальная б/д квартир г.Твери. Т.е. б/д обладала реальным распределением значений характеристик и факторов Pi. Стоимости Y моделировались по сложному случайному закону (например, (1*P1.987 + 2*P2.911 + 3*P31.024 - P4 + 4*ln(P5))*P61.8*P7*P8.1*.85^P9). Цены сделок формировались: для 1) как Y'=Y+(e -0.5)*(D/Yср.), для 2) Y'=Y+(e -0.5)*(D/Yср.)*z(Pi), где e - случайная величина от 0 до 1, D - параметр, характеризующий величину шума по отношению к среднему значению цен (фактически, это величина определяющая дисперсию погрешности), z(Pi) - зависимость от факторов, с тем условием, что значения z(Pi) распределены вокруг единицы с дисперсией, не превосходящей дисперсию погрешности. Далее проводилось моделирование цен Y' с использованием МРА относительно набора факторов Pi, т.е. строилась линейная модель, результатом которой были предсказанные значения f(Pi). Теперь мы могли оценить то, насколько хорошо предсказаны как цены сделок Y', так и стоимости Y на основе какого-либо статистического коэффициента (был выбран COV). Результат представлен на следующих рисунках:

Рис.2. Зависимость погрешности моделирования (выраженная COV) от уровня внесенного шума (D/Yср.): А) для случая независимого шума; Б) для шума, связанного с несколькими факторами.
Первое, что необходимо отметить, что оценка f(P
i) стоимостей Y в обоих случаях выходит на некоторое значение COV (5-6%) при D/Yср.(r) 0. Это связано с погрешностью моделирования, т.е. тем, что делается попытка описать сложный закон зависимости стоимости от факторов линейным законом. В обоих случаях погрешность моделирования стоимостей Y слабо зависит от вносимого уровня шума в б/д, вне зависимости от того, связан ли как-то этот шум со значениями факторов или нет. Для случая (А) COV оценок цен б/д Y' возрастает линейно с увеличением шума, что и следует из теории МРА. Для случая (Б) зависимость становится нелинейной, однако COV при этом меньше, это связано с тем, что часть вариации шума, связанная с зависимостью от факторов описывается моделью. Так или иначе, при реальном уровне шума (десятки процентов) погрешность оценки реальных стоимостей Y гораздо ниже, чем погрешность оценки цен б/д Y'.Полученный результат внешне противоречит случаям 1) и 2) формального подхода, где погрешность
s abs > s db. На самом деле то была лишь верхняя оценка погрешности, не учитывающая возможность вычленения начального шума e 0 при моделировании. Как показано на рис.2 ситуация является более благоприятной, однако недостаток состоит в том, что мы априорной не знаем ни уровня шума e 0, ни его вида ни его зависимости от прочих факторов объекта и сделки. Это значит, что такую оценку (s abs < s db) можно считать нижней.Каким образом можно оценить шум
e 0 присутствующий в базу (сюда мы включим и шум недоучета факторов e f)? Помимо выводов делаемых при анализе рынка, когда принимается в расчет ошибка округления или же вызнается зависимость цены от срока экспозиции можно предложить следующий метод, используемый, в частности, в математико-статистическом пакете NCSS: теоретически возможно образовать достаточно объемный набор преобразований от факторов и характеристик (это будут т.н. комбинированные и нелинейные переменные), которые присутствуют в базе. Как показывает опыт, достаточно ограничиться 10-20 новыми переменными и строить лишь нелинейные функции степенного и экспоненциального (логарифмического вида). Далее остается построить зависимость R2 от числа включенных факторов и аппроксимировать ее в бесконечность (см.рис.3).
Рис.3. Оценка погрешности e 0(e f) путем экстраполяции к бесконечно большому числу комбинаций факторов.
В NCSS этому соответствует процедура "Все возможные регрессии". Полученное значение R2 (N (r) Ґ ) можно интерпретировать следующим образом: использование сложной по структуре формулы в пределах базы данных позволяет утверждать, что оставшаяся неописанной часть вариации цен Y' 1-R2 относится на долю вариации за счет оставшихся неописанных факторов, в числе которых находится шум e 0, который, по сути, является следствием неучтенных субъективных факторов.
Дальнейший расчет основной погрешности оценки e abs строится из следующих соображений: верхний предел средней квадратической погрешности модели s abs -
, нижний - s db/k где k оценивается из графиков (Рис.2) по оцененному шуму б/д e 0 (к примеру для независимого шума 20% k ~ 4, для случая шума, связанного с рядом факторов, если есть основания полагать это, k ~ 3,3). Определить - связан ли шум e 0(e f) со значениями факторов - априорно невозможно. Можно лишь делать предположения. Однако нас интересует, в данном случае, лишь нижний предел, который имеет место при независимом шуме, он равен s db/k.
Немного отвлечемся от основной темы и рассмотрим проблему выбросов. Как уже говорилось, причиной возникновения выбросов модели является ее неустойчивость по значениям факторов и характеристик. Здесь мы опускаем выбросы для объектов, которым нет аналогов в базе, это могут быть уникальные объекты или объекты с уникальным местоположением (к примеру, возможен центр сильного отрицательного локального влияния в городе, вокруг которого не собраны сделки, в результате этого объекты этого локального центра будут сильно переоценены). Оценить вероятность появления неустойчивости и ее характерный масштаб - сложно, фактически, это можно сделать лишь для каждого конкретного случая отдельно. К тому же, при обнаружении неустойчивости проще ее ликвидировать.
КМО ПРИ ИНДИВИДУАЛЬНОЙ ОЦЕНКЕ.
Сразу оговоримся, что из рассмотрения исключена оценка затратным методом, хотя КМО не ограничивается только методом сравнения продаж. И затратный метод и доходный метод доступны КМО, однако для текущего момента для российского рынка недвижимости наиболее актуален метод сравнения продаж и в ближайшее время, видимо, будет развиваться и КМО по затратному методу.
Достаточно интересно рассмотреть работу нескольких экспертов по методу сравнения продаж для одного и того же объекта. В классической схеме подбирается набор парных сходных сделок и производится вычисление стоимости объекта путем расчета влияния различных поправок. В случае если эксперты используют одни и те же парные сделки, то следует ожидать близкого результата. Погрешность определения s exp будет состоять из знакомого нам шума сделок, характеризуемого s 0 и ошибок определения каждой поправки - (s f)i по закону сложения дисперсий независимых величин
. Погрешности (s f)i - весьма значительны, т.к. набрать достаточное количество парных сделок по каждому фактору - крайне трудно. Причем наблюдается интересный эффект, с увеличением числа поправок, учитываемых экспертов, погрешность может возрастать вместо ожидаемого улучшения оценки. И, надо отметить, это взята еще идеальная ситуация, а что если экcперты имеют свои предвзятые мнения о поправках, или базируются на различных сделках (как показывает практика, по этой причине оценки экспертов разнятся, иногда, в разы). В результате, погрешность оценки экспертами значительно превышает погрешность КМО. Более прогрессивный путь работы эксперта - это использование более сложных и продвинутых методов расчета поправок, которые, по своей сути, тяготеют к множественной регрессии, а с этим, понятно, гораздо лучше справляется КМО с развитой теорией, удобными математико-статистическими пакетами. Однако опытный эксперт имеет одно значительное преимущество - в его работе отсутствуют сильные выбросы результата, он способен уловить уникальность объекта или местоположения, помимо этого он способен делать индивидуальные допущения. Опытный же риэлтер проводит оценку, вообще, на основе личной интуиции (что эквивалентно существованию “модели в голове”). Точность при этом находится на уровне шума рынка s 0.
Таким образом, представляется оптимальным взаимное дополнение КМО и экперта-оценщика. Один сценарий - за базовое значение выдается стоимость КМО и эксперт осуществляет контроль за возможность выброса и уточняет оценку путем введения поправок (однако делать это надо осторожно) на те факторы, которые в принципе не учитываются в модели. Второй - из модели эксперт вычленяет необходимые ему поправки и базовые стоимости кв.м. площадей, которые и использует затем в своей работе.
Теперь зададимся вопросом - зачем эксперту более точная оценка, с установленной погрешностью. Дело в том, что подавляющее большинство нынешних экспертов успешно справляется с задачей, работая на весьма примитивном уровне. Однако, ситуация меняется, и оценщикам-экспертам необходимо будет переходить на более высокий уровень работы. Первый тезис - число т.н. заказных сделок будет снижаться, т.к. развивается государственный контроль (на данный момент - это налоговая полиция, в будущем
- это муниципальные структуры, не желающие терять деньги для местного бюджета). Второй - тенденция к сертифицированию и контролю работы оценщика со стороны профессиональных союзов оценщиков и риэлтеров, а также государства. Третий - возрастание заказов с требованием предельно точной оценки, особенно это касается государственных структур, да и частные лица и предприятия все больше заинтересованы в точной оценке своей собственности. Четвертый - внутренняя конкуренция среди оценщиков, ни для кого не секрет, что рынок работы для них сокращается и, очевидно, непрофессионалы, в конце концов, останутся без дела.ЗАКЛЮЧЕНИЕ.
Выделим наиболее важные результаты анализа проблемы:
Подытоживая, хотелось бы подчеркнуть важность создания повсеместной практики корректной оценки с расчетом ее погрешности. Особенно это касается массовой оценки, где ошибки тиражируются на десятки и сотни объектов. Это требует достаточно высокого уровня подготовки оценщика, использования математико-статистического аппарата (обычно, это мат.статистика и теория ошибок), соответствующих компьютерных пакетов (как пример - пакет NCSS Дж.Хинца, SAS и т.д.). Однако, как показывает опыт, это по плечу любому специалисту с высшим образованием, владеющего компьютером на уровне пользователя. Тем более, что компании, занимающиеся риэлтерской и оценочной деятельностью, могут себе позволить подготовку такого специалиста.
Следует также выделить тот факт, что по отдельности ни модель, ни эксперт не смогут добиться того результата, который получает эксперт владеющий моделированием или моделист с опытом оценки. Тем более, что со стороны муниципалитетов и государственных структур требования на массовую
оценку (заказов на которую становится все больше и больше) обязательно включают создание и защиту модели.Нет сомнений, что профессиональная оценка в ближайшем будущем выйдет на уровень точной науки, в которой присутствует и доля искусства.
Приложение.
Определение статистических коэффициентов для случая моделирования рынка недвижимости [3].
1) Средняя квадратичная погрешность

где S
i - предсказанная стоимость собственности i;![]()
где ![]()
- средняя цена по б/д.
Список цитируемой литературы:
[1]
Ю.В.Кочетков, Н.В.Калинина “О роли и задачах компьютеризованной массовой оценки в России.” В печати.[2] В.Н.Калинина, В.Ф.Панкин “Математическая статистика”. Наука. 1985 г.
[3] “Организация оценки и налогообложения недвижимости”. (под ред. Дж.К.Эккерта), Стар Интер, Москва 1997 г.