Introduction

ElectroShape에 대해 설명하기 전에 먼저, 분자의 fingerprints를 알고 계시나요? 알고 계시다면 ElectroShape에 대해서도 감 잡기가 쉬워집니다. Fingerprints는 분자의 computational representation입니다. 화학적, 분자적 특징들을 bitstring, bitvector, array의 형태로 encoding 합니다. 각 bit는 분자의 특징을 이야기합니다. ('1' 은 해당 특징이 존재, '0' 은 해당 특징이 존재하지 않음.) 일부 fingerprints에서는 count-based 로되어 있어서 특정한 특징이 얼마나 자주 등장하는지를 셀 수 있습니다.
ElectroShape와 fingerprints는 모두 Molecular descriptors입니다. 즉, 둘 다 분자의 특징을 나타낸다는 것입니다. 분자의 representation 방식을 많이 알아두면 필요한 연구에 적절하게 사용하기 좋습니다. Solubility, logP, molecular weight, melting point 등은 1D, fingerprints는 2D, ElectroShape는 3D입니다.
Paper
Armstrong, M. Stuart, et al. "ElectroShape: fast molecular similarity calculations incorporating shape, chirality and electrostatics." Journal of computer-aided molecular design 24.9 (2010): 789-801.
ElectroShape에 관한 논문은 위의 논문입니다. 하지만, 논문에서
We present ElectroShape, a novel ligand-based virtual screening method, that combines shape and electrostatic information into a single, unified framework. Building on the ultra-fast shape recognition (USR) approach for fast non-superpositional shape-based virtual screening, it extends the method by representing partial charge information as a fourth dimension.
USR을 기반으로 method를 확장했다고 언급하고 있기 때문에, 우선 USR이 무엇인지부터 알아보겠습니다.
Ultrafast Shape Recognition (USR)?
Paper
Ballester, Pedro J., and W. Graham Richards. "Ultrafast shape recognition to search compound databases for similar molecular shapes." Journal of computational chemistry 28.10 (2007): 1711-1723.

왼쪽부터 순서대로 CPK(Corey-Pauling-Koltun) representation, set of all atomic locations, set of all inter-atomic distances, set of all atomic distances from four reference locations 입니다. CPK는 원자들을 반지름을 가진 구체로 표현하는 방식인데 시각적으로는 이해하기 쉽지만 컴퓨터가 분자 모양을 수치적으로 비교할 때 쓰기에는 쉽지 않은 형태입니다. 두 번째 그림은 원자들의 3차원 좌표를 점으로 나타낸 것이고, 세 번째 그림은 그 모든 원자들의 거리를 선으로 연결해서 표시한 형태입니다. 논문에서는 모든 원자들의 거리를 선으로 연결하는 것이 모양을 잘 나타낼 수 는 있지만 분자 형태를 정확하게 묘사하는 데 필요한 정보보다 더 많은 정보를 포함하고 있다고 설명합니다. 그리고 마지막이 USR 방식입니다. 자세한건 다음 figure를 살펴보겠습니다.

ctd (centroid): 분자의 중심
cst (closest atom atom to centroid): ctd에서 가장 가까운 atom
fct (farthest atom to centroid): ctd에서 가장 먼 atom
ftf (farthest atom to fct): fct atom에서 가장 먼 atom

d는 distance이고 k는 atom 번호, N은 원자 전체 개수입니다. (여기서 atom 번호라는 것은 화학에서 말하는 원자번호가 아니라 atom 5개 있으면 1번, 2번, 3번, 4번, 5번 이것을 말하는 것)
여기서 ctd는 앞서 설명드린 것처럼 centroid입니다.
그리고 세 가지 moment가 존재합니다.

1: mean 평균
2: variance 분산
3: skewness 왜도
ctd, cst, fct, ftf 각 거리들의 세 가지 moment가 존재하므로 최종적으로는 그림 맨 오른쪽처럼 12-dimensional molecular shape space가 나옵니다.

위에 분자는 33 heavy atom, 밑에 분자는 26 heavy atom으로 이루어져 있습니다. 각 분자 계산 결과 12-dimensional molecular shape space가 나온다는 것을 알 수 있고, Shape similarity 값은 계산하면 0.812가 나왔습니다. 0~1 사이 값들로 나오고 1에 가까울수록 similarity가 높은 것입니다. (Tanimoto similarity처럼)

이번에는 하나의 분자만 다르고 나머지는 완전히 똑같은 두 분자를 비교하였습니다. 계산 결과 0.966으로 상당히 높은 similarity 값으로 계산된다는 것을 알 수 있습니다.
Paper
Kumar, Ashutosh, and Kam YJ Zhang. "Advances in the development of shape similarity methods and their application in drug discovery." Frontiers in chemistry 6 (2018): 315.

위의 리뷰논문에서는 Atomic-distance based methods, Gaussian overlay-based methods, Surface-based methods 로 shape representations 방식들을 소개하고 있습니다. USR 방식은 Atomic-distance based methods에 해당합니다.

Methods table에서 USR과 Electroshape를 찾을 수 있습니다.

리뷰논문에서 제공하는 그림인데 좀 더 직관적으로 이해하기 쉬울 것 같아서 추가로 첨부하였습니다.
Paper
Armstrong, M. Stuart, et al. "ElectroShape: fast molecular similarity calculations incorporating shape, chirality and electrostatics." Journal of computer-aided molecular design 24.9 (2010): 789-801.

ElectroShape는 기존에 x, y, z 위치 좌표에 partial atomic charges까지 추가로 고려하는 방식입니다. (x, y, z, q) 무슨 차이가 있는지는 예시 그림을 보면 더 쉽게 이해할 수 있습니다.

둘은 steric shape가 매우 유사하지만 부분 전하가 하나 추가되어 고려될 때는 매우 다르게 나타납니다.

Distance function 자체는 간단합니다. 여기서 중요한 것은 q를 추가하는 것이 화학적으로 의미가 있는가 (이것은 이 method를 사용해서 검증을 위한 dataset을 이용해 result를 보여주는 것으로 보통 논문 흐름을 가져가는 듯 합니다.) 검증만 된다면 q말고도 다른 정보를 추가할 수도 있겠죠! 그리고 또다른 중요한 점은 q는 x, y, z 좌표와 단위가 동일하지 않다는 점입니다. 그래서 연구에서는 scaling factor를 이용하였습니다.

μ은 거리( Å )와 전하(electron charge) 비율을 나타내는 값입니다. 즉, 전하 값 q에 μ를 곱해 Å로 변환합니다. μ가 작아지면 전하의 영향력도 작아지기 때문에 적절한 μ 값을 설정하여야 하는데, 논문에서는 DUD dataset을 이용해서 평균 EF값이 가장 높은 μ 값을 선택하였습니다. ( μ = 25 )

그리고 앞에서 USR에서처럼 distance 기반이기 때문에 centroid positions을 선택해야 하는데, 논문에서는 Ease of computation, Continuity, centroids 위치가 chiral molecule과 enantiomer를 구별할 수 있는가, centroids가 서로 너무 가깝거나 분자 전체에 너무 멀리 떨어져있는가, Avoidance of degeneracy, Invariance 의 기준으로 결정하였습니다. 하지만, 모든 조건을 완벽하게 만족 시키기는 어렵기 때문에 논문에서는 Continuity보다는 다른 조건을 만족시키는 방향으로 기준을 정하였다고 설명합니다. ['가장 가까운 원자나 가장 먼 원자 같은 개념들이 연속적이지 않기 때문에 ...' 논문에서 구체적으로 이유를 적어주었는데 이해 못했습니다. 이해하게 되면 나중에 수정하겠습니다.]
아까 앞에서 USR은 3차원, 4개의 centroids와 3개의 moment로 총 12개 dimensional molecular shape space가 output되었습니다. ElectroShape는 몇 개 일까요? 4차원, 5개의 centroids와 3개의 moment로 총 15-dimensional vector입니다.

[추가] 3차원은 4개의 centroids, 4차원은 centroids 즉 n차원 공간에서 한 점의 정확한 위치를 정하기 위해서는 n +1개의 고정된 centroids으로부터의 거리가 필요합니다. 그림은 3차원 공간입니다. 파랑, 빨강, 초록색 구가 존재합니다. 세 구가 교차하는 지점에 (3개의 centroids) 흰색 points 2개가 보입니다. 한 점을 정의해야 하는데, 교차하는 지점이 두 곳이기 때문에 3개의 구로는 부족하다는 것을 알 수 있습니다.
Reference
- Armstrong, M. Stuart, et al. "ElectroShape: fast molecular similarity calculations incorporating shape, chirality and electrostatics." Journal of computer-aided molecular design 24.9 (2010): 789-801.
- Ballester, Pedro J., and W. Graham Richards. "Ultrafast shape recognition to search compound databases for similar molecular shapes." Journal of computational chemistry 28.10 (2007): 1711-1723.
- Ballester, Pedro J., Paul W. Finn, and W. Graham Richards. "Ultrafast shape recognition: evaluating a new ligand-based virtual screening technology." Journal of Molecular Graphics and Modelling 27.7 (2009): 836-845.
- https://oi.readthedocs.io/en/latest/bioinfo/mol_fp/maccs.html
- Kumar, Ashutosh, and Kam YJ Zhang. "Advances in the development of shape similarity methods and their application in drug discovery." Frontiers in chemistry 6 (2018): 315.
- 현재 관련 분야를 공부하고 있는 전문가가 아닌 학생이기 때문에 틀린 내용이 있을 수 있습니다.
- 오타와 틀린 부분을 댓글로 알려주시면 수정하도록 하겠습니다.
'Paper > Review' 카테고리의 다른 글
| [Paper review] MKK4 inhibitors (liver regeneration, treatment of liver failure) (0) | 2025.09.10 |
|---|---|
| [Paper review] Hinge binder 개념 및 데이터베이스 (2) | 2025.08.08 |
| [Paper review] ScaffoldGraph 개념 및 코드 (3) | 2025.07.28 |
| [Paper review] Synthetic lethality 관련 정리 (1) | 2025.07.22 |
| [Paper review] Scaffold hopping 관련 정리 (1) | 2025.07.17 |