더 나은 AI 모델 구축을 위한 '블랙박스' 풀기

MIT 뉴스 오피스 웹사이트에서 다운로드할 수 있는 이미지는 Creative Commons Attribution Non-Commercial No Derivatives 라이센스에 따라 비영리 단체, 언론 및 일반 대중에게 제공됩니다. 제공된 이미지를 크기에 맞게 자르는 것 외에는 변경할 수 없습니다. 이미지를 복제할 때는 크레디트 라인을 사용해야 합니다. 아래에 제공되지 않은 경우 이미지를 "MIT"로 표시하십시오.

이전 이미지 다음 이미지

신용 카드 활동으로 인한 금융 사기를 탐지하거나 의료 이미지에서 암을 식별하기 위해 딥 러닝 모델이 현실 세계에 배포되면 인간보다 성능이 뛰어난 경우가 많습니다.

그런데 딥러닝 모델이 정확히 무엇을 학습하는 걸까요? 예를 들어 임상 이미지에서 피부암을 발견하도록 훈련된 모델이 실제로 암 조직의 색상과 질감을 학습합니까, 아니면 다른 특징이나 패턴을 표시합니까?

이러한 강력한 기계 학습 모델은 일반적으로 예측을 위해 데이터를 처리하는 수백만 개의 노드를 가질 수 있는 인공 신경망을 기반으로 합니다. 복잡성으로 인해 연구자들은 이러한 모델을 "블랙박스"라고 부르곤 합니다. 모델을 만든 과학자조차도 그 내부에서 일어나는 모든 일을 이해하지 못하기 때문입니다.

Stefanie Jegelka는 "블랙박스" 설명에 만족하지 않습니다. MIT 전기 공학 및 컴퓨터 과학과의 신임 부교수인 Jegelka는 이러한 모델이 무엇을 학습할 수 있고 어떻게 작동하는지, 그리고 특정 사전 정보를 이러한 모델에 구축하는 방법을 이해하기 위해 딥 러닝을 깊이 연구하고 있습니다.

“결국 딥러닝 모델이 학습할 내용은 수많은 요인에 따라 달라집니다. 그러나 실제로 관련성이 있는 이해를 구축하면 더 나은 모델을 설계하는 데 도움이 될 뿐만 아니라 모델 내부에서 무슨 일이 일어나고 있는지 이해하여 언제 모델을 배포할 수 있고 언제 배포할 수 없는지 알 수 있습니다. 이는 매우 중요합니다.”라고 CSAIL(컴퓨터 과학 및 인공 지능 연구소) 및 IDSS(데이터 시스템 사회 연구소)의 회원이기도 한 Jegelka는 말합니다.

Jegelka는 특히 입력 데이터가 그래프 형식일 때 기계 학습 모델을 최적화하는 데 관심이 있습니다. 그래프 데이터는 특정 과제를 제기합니다. 예를 들어 데이터의 정보는 개별 노드와 가장자리에 대한 정보뿐만 아니라 구조(무엇이 무엇에 연결되어 있는지)로 구성됩니다. 또한 그래프에는 기계 학습 모델이 존중해야 하는 수학적 대칭성이 있습니다. 예를 들어 동일한 그래프는 항상 동일한 예측으로 이어집니다. 이러한 대칭성을 기계 학습 모델에 구축하는 것은 일반적으로 쉽지 않습니다.

예를 들어 분자를 생각해보십시오. 분자는 원자에 해당하는 꼭지점과 원자 사이의 화학 결합에 해당하는 모서리로 구성된 그래프로 표현될 수 있습니다. 제약 회사는 딥 러닝을 사용하여 많은 분자의 특성을 신속하게 예측하고 실험실에서 물리적으로 테스트해야 하는 수를 줄일 수 있습니다.

Jegelka는 그래프 데이터를 효과적으로 입력으로 사용하고 다른 것(이 경우 분자의 화학적 특성에 대한 예측)을 출력할 수 있는 수학적 기계 학습 모델을 구축하는 방법을 연구합니다. 분자의 특성은 그 안에 있는 원자뿐 아니라 분자 사이의 연결에 의해서도 결정되기 때문에 이는 특히 어려운 일입니다.

그래프 기반 기계 학습의 다른 예로는 트래픽 라우팅, 칩 설계, 추천 시스템 등이 있습니다.

이러한 모델을 설계하는 것은 모델을 훈련하는 데 사용된 데이터가 모델이 실제로 보는 데이터와 종종 다르기 때문에 더욱 어렵습니다. 아마도 모델은 작은 분자 그래프나 교통 네트워크를 사용하여 훈련되었을 수도 있지만 일단 배포되면 표시되는 그래프는 더 크거나 더 복잡합니다.

이 경우 연구자들은 이 모델이 무엇을 학습할 것으로 기대할 수 있으며, 실제 데이터가 다른 경우에도 실제로 계속 작동할까요?