СПИСОК ИСПОЛЬЗУЕМЫХ СОКРАЩЕНИЙ ВВЕДЕНИЕ ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ 1.1. Методы построения QSAR-моделей 1.1.1. Множественная линейная регрессия 1.1.2. Проекции на скрытые переменные 1.1.3. Генетические алгоритмы 1.1.4. Самосогласованная регрессия 1.2.

Квантово–химическое (3–D QSAR) моделирование лиганд–рецепторного взаимодействия одного из блокаторов кальциевых каналов - нифедипина с активным. Изображение лиганд-рецепторного комплекса нифедипина с активным сайтом кальциевого рецептора (Chem-3D Pro, Cambridge Software).

Критерии качества зависимостей 1.3. Методы формирования обучающей и контрольной выборок 1.4. Область применимости QSAR-моделей 1.5. Основные типы дескрипторов, используемые в QSAR-моделировании 1.5.1. 2D дескрипторы 1.5.2. 3D дескрипторы ГЛАВА 2. ОБЪЕКТЫ И МЕТОДЫ ИССЛЕДОВАНИЯ 2.1.

Методы 2.2.1. Дескрипторы атомных окрестностей Многоуровневые атомные окрестности Количественные атомные окрестности 2.2.2. Дескрипторы 'объема' и 'длины' молекулы 2.2.3. Методы преобразования дескрипторов атомных окрестностей

Метод нечетких градаций Преобразование с помощью квантилей Преобразование с помощью полиномов Чебышева 2.2.4. Методы QSAR-моделирования, основанные на дескрипторах атомных 55 окрестностей 2.2.5. Метод оценки области применимости QSAR-модели ГЛАВА 3. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ 3.1.

Прогноз количественных свойств органических соединений 3.1.1. Ингибиторы циклин-зависимой киназы 3.1.2. Ингибиторы дигидрофолат редуктазы 3.1.3. Ингибиторы ангиотензин-превращающего фермента 3.1.4.

Ингибиторы цитохрома Р450 2А 3.1.5. Ингибиторы цитохрома Р450 2А 3.1.6. Соединения, действующие на альфа-2 адренорецепторы 3.1.7. Соединения, действующие на эстрогеновые рецепторы 3.1.8.

Соединения, проявляющие острую токсичность для Chlorella vulgaris 3.1.9. Соединения, проявляющие острую токсичность для Vibrio fischeri 3.1.10. Соединения, проявляющие острую токсичность для Tetrahymena pyriformis 3.2. Статистическое сравнение методов QSAR 3.3. Программа GUSAR 3.4. Проверка устойчивости прогноза количественных свойств органических 92 соединений 3.5.

Сравнение методов оценки области применимости QSAR-модели ГЛАВА 4. Проблема поиска химических веществ с определенной биологической активностью и другими заданными свойствами - одна из важнейших в био- и хемоинформатике. В современной химической науке уделяется значительное внимание разработке методов, позволяющих осуществлять априорную оценку свойств химических соединений исходя из структурной формулы, еще до их синтеза. Многие физико-химические свойства веществ удается рассчитать, используя как классические, так и квантовохимические подходы. Однако, существует целый ряд трудно формализуемых свойств, и прежде всего биологическая активность, вообще не поддающихся таким расчетам.

Методы анализа количественных взаимосвязей структура-активность (QSAR) широко применяются для поиска и конструирования лекарств, а также для оценки безопасности химических веществ. В основе QSAR лежит предположение, что свойства химического соединения определяются его структурой. Для описания структуры химического соединения в QSAR используют так называемые дескрипторы -разнообразные характеристики молекул вещества. Известно более 3000 дескрипторов, которые применяются для построения QSAR моделей 1, 2. Одной из проблем, активно исследуемых в данной области, является поиск оптимального набора дескрипторов, которые смогли бы описать взаимосвязь структура-активность для разнообразных видов биологической активности и других свойств органических соединений 1, 3. Использование разных дескрипторов, приводящих к различным моделям для одних и тех же веществ, порождает проблему выбора лучшей модели, что часто приводит к ее переобучению 4, 5.

Наряду с методами QSAR, основанными на структурных формулах химических соединений (2D QSAR), успешно применяются для поиска новых биологически активных молекул методы, использующие пространственное описание химических структур (3D QSAR) 6-8. Для этих методов необходимы данные о пространственной структуре лигандов, и их отличительной особенностью является то, что они учитывают стереоспецифичность лиганд-белкового взаимодействия. В то же время, для построения предсказательных моделей необходимо пространственное выравнивание молекул, которое часто бывает неоднозначным, а если сами лиганды гибкие, то необходимо проводить поиск наилучших конформаций молекул, что приводит к увеличению сложности вычислений, и результат также может быть неоднозначным 9, 10. Алгоритм построения модели является одним из важнейших компонентов QSAR. Изначально в QSAR доминирующим методом была обычная множественная линейная регрессия.

С ростом количества дескрипторов и с появлением проблемы их выбора стали использовать другие методы: проекция на скрытые переменные, искусственные нейронные сети, метод опорных векторов и пр. Эти методы имеют как преимущества, так и недостатки, например, для искусственных нейронных сетей хорошо известна проблема оптимальной остановки обучения, для метода опорных векторов необходим поиск оптимальных параметров 12, для других методов существует проблема выбора наилучшей модели 13. Наряду с QSAR-моделированием отдельных свойств химических соединений, все актуальней становится проблема одновременной оценки множества разнообразных свойств для больших массивов химических структур: проблема оценки ADME/T (абсорбция, распределение, метаболизм, выведение и токсичность) 14, 15, компьютерное предсказание действия лигандов па множество мишеней одновременно 16, предсказание побочных эффектов лекарств 17, 18. В то время, как качественное предсказание спектра биологической активности уже известно, и широко применяется 19, множественное количественное предсказание биологических активностей, фармакологических свойств и токсичности вывело бы на новый уровень количественный анализ взаимосвязей структура-активность органических соединений.

Эффективная реализация множественного прогноза требует использования универсальных дескрипторов единого типа, примером которых могут служить дескрипторы многоуровневых атомных окрестностей 20, 21. Цель и задачи исследования Цель диссертационной работы — разработка и валидация метода количественного прогноза биологической активности органических соединений на основе дескрипторов атомных окрестностей. Для достижения этой цели были поставлены следующие задачи: 1. Исследовать применимость дескрипторов атомных окрестностей для описания органических соединений в задачах количественного анализа взаимосвязей структура-активность. Разработать эффективный алгоритм количественного прогноза биологической активности органических соединений на основе дескрипторов атомных окрестностей и реализовать его в виде компьютерной программы.

Сравнить точность и прогностическую способность предложенного алгоритма с другими методами количественного анализа взаимосвязей структура-активность для разных видов биологической активности. 101 выводы 1. Дескрипторы атомных окрестностей применимы для описания органических соединений в задачах количественного анализа взаимосвязей структура-активность. Разработаны и программно реализованы три алгоритма прогноза количественных свойств органических соединений: MNASCR использует MNA дескрипторы и преобразование с помощью нечетких градаций; qQNASCR использует QNA дескрипторы и преобразование с помощью квантилей и QNAChebSCR использует QNA дескрипторы и преобразование с помощью полиномов Чебышева.

Точность алгоритмов MNASCR и qQNASCR сопоставима с другими QSAR методами. Алгоритм на основе QNA дескрипторов, полиномов Чебышева и самосогласованной регрессии — наилучший из исследованных, его точность достоверно выше использованных для сравнения других известных QSAR методов. Он реализован в виде компьютерной программы GUSAR. СПИСОК ОПУБЛИКОВАННЫХ РАБОТ 1. Поройков В.В., Филимонов Д.А., Лагунин А.А., Глориозова Т.А., Рудик А.В., Степанчикова А.В., Акимов Д.В., Захаров А.В., Дмитриев А.В.

8th International Conference on Chemical Structures.Noordwijkerhout (the Netherlandes). Geronikaki A., Druzhilovsky D.S., Zakharov A.V., Poroikov V.V. Computer-aided prediction for medicinal chemistry via the Internet. // SAR and QSAR in Environmental Research. ЗАКЛЮЧЕНИЕ В диссертационной работе исследована возможность количественного предсказания биологической активности органических соединений на основе дескрипторов атомных окрестностей. Разработано три метода построения QSAR моделей, сравнительный анализ которых помог выявить универсальный метод QSAR моделирования (QNAChebSCR - использует QNA дескрипторы, преобразование с помощью полиномов Чебышева и самосогласованную регрессию), пригодный для количественного анализа взаимосвязей структура-активность различных типов биологической активности. Показано, что метод MNASCR (использует MNA дескрипторы, преобразование с помощью нечетких градаций и самосогласованную регрессию) пригоден для QSAR моделирования лиганд-белковых взаимодействий, а метод qQNASCR (использует QNA дескрипторы, преобразование с помощью квантилей и самосогласованную регрессию) пригоден для QSAR моделирования острой токсичности и взаимодействий с ферментами, метаболизирующими ксенобиотики.

Разработанные методы могут предсказывать количественные значения биологической активности химических соединений по их структурной формуле, и при этом не требуют использования информации о трехмерной структуре химического соединения и/или белка-мишени. Они основаны на одном типе дескрипторов и едином алгоритме, в отличие от классических методов QSAR. Точность разработанных методов была сопоставлена с широко применяемыми 3D и 2D QSAR методами на десяти разных выборках.

Added to cart В программе ISIDA/QSPR используются субструктурные молекулярные фрагменты (SMF) и многомерный линейный регрессионный анализ (MLR) для QSPR и QSAR моделирования и предсказания физических, химических и биологических свойств. The ISIDA/QSPR program realizes Multiple Linear Regression Analysis (MLR) and Substructural Molecular Fragments (SMF) for QSPR and QSAR modelling and prediction of physical, chemical and biological properties. В качестве исходных данных в ISIDA/QSPR служат известные экспериментальные величины моделируемого свойства для ряда соединений обучающего набора данных. Субструктурные молекулярные фрагменты как подграфы молекулярных графов соединений применяются в качестве дескрипторов (независимых переменных) в QSPR моделях. Как правило, применяются кратчайшие топологические пути. Кратность фрагмента в соединении — величина дескриптора. Дескрипторы вычисляются исключительно из данных о структурной (2D) формуле соединения.

Привлекается оригинальная комбинированная пошаговая техника увеличения и уменьшения числа SMF дескрипторов в модели для выбора переменных из их исходного множества, обеспечивающих наилучшее предсказание свойства. ISIDA/QSPR генерирует множество устойчивых MLR моделей, каждая их которых соответствует применяемому типу SMF дескрипторов и методам ступенчатого отбора переменных. Для надежного предсказания свойств используется консенсус модель. Консенсус модель объединяет предсказания множества индивидуальных моделей. Программа рассчитывает свойство как арифметическое среднее величин, вычисленных с помощью наиболее устойчивых индивидуальных моделей, исключая выпадающие величины и применяя методы по оценке области применимости каждой индивидуальной модели.

Программа ISIDA/QSPR является частью проекта ISIDA. Проект ISIDA — совместный проект между проф. А. Варнеком (Лабораторией химической информатики, UMR 7177 CNRS, Universite de Strasbourg, 4, rue B.Pascal, Strasbourg, 67000, France) и д.х.н. в.н.с. Соловьевым В.П. (Лаборатория новых физико-химических проблем, зав. Академик Цивадзе А.Ю., Институт физической химии и электрохимии, РАН, 119991 Москва, Ленинский пр., 31а). Программа ISIDA/QSPR включает:.

Редактор EdiSDF, предназначенный для визуализации и редактирования файлов, содержащих химические 2D и 3D формулы в формате Structure-Data Files (SDF). Входные данные для программы ISIDA/QSPR представлены файлами SDF. Программу FMF для предсказания физических, химических и биологических свойств с использованием готовых моделей ISIDA/QSPR. Модуль MolFrag для анализа субструктурных молекулярных фрагментов (SMF) и их вкладов. Использование ISIDA/QSPR Распаковать архив содержащий директорию ISIDAQSPR. Для Windows 7 и Windows Vista строго рекомендуется размещать директорию ISIDAQSPR не на системном диске. Программа не требует инсталляции.

Файл помощи ISIDAQSPRManual.doc находится в директории ISIDAQSPR. As initial data, ISIDA/QSPR uses known experimental values of modelling property for training set of chemical compounds. Substructural molecular fragments as subgraphs of molecular graphs of the compounds are descriptors (independent variables) in QSPR models.

As a rule, shortest topological paths are applied. A fragment occurrence is a descriptor value. The descriptors are derived solely from 2D chemical structures. Original combined forward and backward stepwise techniques are applied for selections of the most pertinent variables from initial pools of the SMF descriptors. ISIDA/QSPR generates many MLR models; each of them corresponds to applied type of the SMF descriptors and the stepwise techniques. For reliable predictions of the properties, a consensus model is used.

The consensus model combines the predictions issued from many individual models. The program computes the property as an arithmetic mean of values obtained with a collection of selected on training stage individual models excluding those leading to outlying values, and taking into account an applicability domain of each individual model.

The ISIDA/QSPR program is a part of the ISIDA project. ISIDA is a collaborative project between the Laboratory of Chemoinformatics by Prof. Alexandre Varnek (Laboratoire d’Infochimie, UMR 7177 CNRS, Universite de Strasbourg, 4, rue B.Pascal, Strasbourg, 67000, France) and Dr.

Vitaly Solov’ev (Institute of Physical Chemistry and Electrochemistry, Russian Academy of Sciences, Leninskiy prospect, 31a, 119991, Moscow, Russian Federation). ISIDA/QSPR includes:.

The EdiSDF editor for visualization and edition of Structure-Data Files (SDF) of chemical 2D and 3D formulae. SDF is data input format for the ISIDA/QSPR program. The FMF program for predictions of physical, chemical and biological properties using developed ISIDA/QSPR models. The MolFrag tools for the analysis of substructural molecular fragments (SMF) and their contributions.

Using ISIDA/QSPR Unpack the archive containing the directory of the ISIDAQSPR program. For Windows 7 and Windows Vista, it is strongly recommended to use of non-system disk for the ISIDAQSPR directory. See ISIDAQSPRManual.doc as help file inside the ISIDAQSPR directory. Solov’ev V., Sukhno I., Buzko V., Polushin A., Marcou G., Tsivadze A.,. Chem., 2011, DOI 10.1007/s10847-011-9978-6. Solov’ev V., Oprisiu I., Marcou G., Varnek A. Quantitative StructureProperty Relationship (QSPR) Modeling of Normal Boiling Point Temperature and Composition of Binary Azeotropes.

Res., 2011, 50, No. 24, pp 7. Varnek A., Solov’ev V. Quantitative Structure-Property Relationships in solvent extraction and complexation of metals. In Book: Ion Exchange and Solvent Extraction, A Series of Advances. A. K. Sengupta and B. A. Moyer, Eds., CRC Press, Taylor and Francis Group: Boca Raton, 2009, 679 pp. Solov’ev, V. P.; Varnek, A. A.; Wipff, G. Modelling of Ion Complexation and Extraction Using Substructural Molecular Fragments. Sci., 2000, 40, P.

Varnek, A. A.; Wipff, G.; Solov’ev, V. P. Towards an Information System on Solvent Extraction. J. Solvent Extr. Exch., 2001, 19, No. 5, P.791-837. Varnek, A. A.; Wipff, G.; Solov’ev, V. P., Solotnov A.F.

Assessment of The Macrocyclic Effect for The Complexation of Crown-Ethers with Alkali Cations Using the Substructural Molecular Fragments Method. Sci., 2002, 42, No. 4, P. Solov’ev, V. P.; Varnek, A. Anti-HIV Activity of HEPT, TIBO and Cyclic Urea Derivatives: Structure-Property Studies, Focused Combinatorial Library Generation and Hits Selection Using Substructural Molecular Fragments Method. Sci., 2003, 43, No. 5, P. Katritzky, A.R.; Fara, D.C.; Yang, H.; Karelson, M.; Suzuki, T.; Solov’ev, V.P.; Varnek A. Quantitative Structure-Property Relationship Modeling of?-Cyclodextrin Complexation Free Energies.

Sci. 2004, 44, No. 2, 529-541. Varnek, A.; Fourches, D.; Solov’ev, V. P.; Baulin, V. E.; Turanov, A. N.; Karandashev, V. K.; Fara, D.; Katritzky, A. R. «In Silico» Design of New Uranyl Extractants Based on Phosphoryl-Containing Podands: QSPR Studies, Generation and Screening of Virtual Combinatorial Library and Experimental Tests. Sci., 2004, 44, No. 4, 1365-1382. Solov’ev, V. P.; Varnek, A. A. Structure-Property Modeling of Metal Binders Using Molecular Fragments. Bull., Internat.

(in Russ.: Izv. Khim., 2004, No. 7, pp. 1380-1391) 2004, 53, 1434-1445. Varnek, A.; Solov’ev, V. P. «In Silico» Design of Potential Anti-HIV Actives Using Fragment Descriptors. Combinatorial Chem. High Throughput Screening, 2005, 8, No. 5, 403-416.

Varnek, A.; Fourches, D.; Hoonakker, F.; Solov’ev, V. P. Substructural fragments: an universal language to encode reactions, molecular and supramolecular structures. J. Computer-Aided Mol. Design, 2005, 19, 693-703. Katritzky, A. R.; Kuanar, M.; Fara, D. C.; Karelson, M.; Acree, W. E. Jr.; Solov’ev, V. P.; Varnek, A.

QSAR modeling of blood:air and tissue:air partition coefficients using theoretical descriptors. Chem.,2005, 13, 6450-6463. Tetko, I. V.; Solov’ev, V. P.; Antonov, A. V.; Yao, X.; Doucet, J. P. Fan, B.; Hoonakker, F.; Fourches, D.; Jost, P.; Lachiche, N.; Varnek, A. Benchmarking of Linear and Nonlinear Approaches for Quantitative Structure-Property Relationship Studies of Metal Complexation with Ionophores.

Model., 2006, 46, No. 2, 808-819. Katritzky, A. R.; Dobchev, D. A.; Fara, D. C.; Hur, E.; Tamm, K.; Kurunczi, L.; Karelson, M.; Varnek, A.; Solov’ev, V. P. Skin Permeation Rate as a Function of Chemical Structure.

Chem., 2006, 49, No. 11, 3305-3314. Katritzky, A. R.; Kuanar, M.; Slavov, S.; Dobchev, D. A.; Fara, D. C.; Karelson, M.; William, E.; Acree, W. E. Jr.; Solov’ev, V. P.; Varnek, A. Correlation of Blood — Brain Penetration Using Structural Descriptors. Chem., 2006, 14, No. 14, 4888-4917. Solov’ev, V. P.; Kireeva, N. V.; Tsivadze, A. Yu.; Varnek, A. A. Structure-Property Modeling of the Complexation of Strontium with Organic Ligands in Water. Khimii (Rus.), 2006, 47, No. 2, 303-317. Varnek, A.; Fourches, D.; Sieffert, N.; Solov’ev, V. P.; Hill, C.; Lecomte, M. QSPR Modeling of the AmIII / EuIII Separation Factor: How Far Can We Predict?

Ion Exch., 2007, 25, No. 1, P. Varnek, A.; Kireeva, N.; Tetko, I. V.; Baskin, I. I.; Solov’ev, V. P. Exhaustive QSPR Studies of Large Diverse Set of Ionic Liquids: How Accurately Can We Predict the Melting Point? Model., 2007, 47, No. 3, P.

Horvath D., Bonachera F., Solov’ev V., Gaudin C., Varnek A. Stochastic versus Stepwise Strategies for Quantitative Structure — Activity Relationship Generations. — How Much Effort May the Mining for Successful QSAR Models Take? Model., 2007, 47, No. 3, P.

Varnek A.; Fourches D.; Solov’ev V.; Klimchuk O.; Ouadi A.; Billard I. Successful «In Silico» Design of New Efficient Uranyl Binders. Ion Exch., 2007, 25, No. 4, P. Varnek A., Fourches D., Horvath D., Klimchuk O., Gaudin С., Vayer P., Solov’ev V., Hoonakker F., Tetko I. V., Marcou G.

ISIDA — Platform for Virtual Screening Based on Fragment and Pharmacophoric Descriptors. Computer-Aided Drug Design, 2008, 4, No. 3, P. Varnek A., Fourches D., Kireeva N., Klimchuk O., Marcou G., Tsivadze A., Solov’ev V. Computer-Aided Design of New Metal Binders. Acta, 2008, 96, P.