Sociology

Reliant의 논문 정리 AI, 과학 데이터의 일대처기에 도전하다

뉴스 코너

Friday, October 11 2024

AI 모델은 많은 일을 할 수 있는 것으로 입증되었지만, 실제로 그들에게 하고 싶은 작업은 무엇인가요? 가능하면 잡일입니다. 현재 피곤한 대학원생과 인턴들의 전문분야인 시간이 많이 걸리는 데이터 추출 작업에 전문화된 Reliant는 희망을 품고 있습니다.

CEO 칼 모리츠는 'AI로 할 수 있는 가장 좋은 일은 인간 경험을 개선하는 것입니다. 조부조법의 노동을 줄이고 사람들이 중요한 일을 할 수 있도록 하는 것입니다.'라고 말했습니다. 그는 그와 공동 창업자 마크 벨레메어, 리처드 쉬글의 연구 세계에서 여러 년간 일한 곳이며, 문헌 검토가 이 '조부조법의 노동'의 가장 일반적인 예 중 하나입니다.

모든 논문은 이전 및 관련 작업을 인용하지만, 이러한 소스를 과학의 바다에서 찾는 것은 쉽지 않습니다. 그리고 일부, 체계적인 검토와 같이 수천 개의 데이터를 인용하거나 사용합니다.

모리츠는 한 연구에서 '저자들은 3,500편의 과학 논문을 살펴보아야 했고, 많은 것들이 관련이 없는 것으로 판명되었다. 유용한 정보의 아주 작은 부분을 추출하는 데 많은 시간이 소요되었습니다. 이는 정말 AI에 의해 자동화되어야 할 것으로 보였습니다.'라고 회상했습니다.

그들은 최신 언어 모델이 이 일을 할 수 있다는 것을 알았습니다. 한 실험에서 ChatGPT를 이 일에 투입한 결과, 데이터를 11%의 오차율로 추출할 수 있었습니다. 대부분의 LLM이 수행할 수 있는 일 중 하나이지만 실제로 필요한 것은 아닙니다.

'이 정도로는 충분하지 않습니다.'라고 모리츠는 말했습니다. '이러한 지식 작업에서 사소한 일이지만 실수를 저지르지 않는 것이 매우 중요합니다.'

Reliant의 핵심 제품 Tabular은 일부 LLM(LLaMa 3.1)을 기반으로 하지만 기타 독점 기술로 보강되어 훨씬 더 효과적입니다. 위에서 언급한 수천 개의 연구 추출과제에 대해, 그들은 같은 작업을 제로 오류로 수행했다고 말했습니다.

이것은 무엇을 의미합니까: 천 개의 문서를 넣고 그것, 그것 그리고 그것과 같은 데이터를 추출하려고 말하면 Reliant는 그것을 찾아내고 이를 자세히 또는 구조화된 편리한 사용자 인터페이스에 담아서 당신이 개별 사례로 깊게 파고들 수 있도록 할 것입니다.

모리츠는 '우리 사용자는 한꺼번에 모든 데이터를 처리할 수 있어야 하며, 우리는 사용자가 그들의 관심을 어디에 둘 지 찾을 수 있도록 도와주는 기능을 개발하고 있습니다.'라고 말했습니다.

'디지털 친구만큼 선명하진 않지만 분명히 더 실용적일 수 있는' AI의 이러한 맞춤 및 효과적인 응용은 여러 기술적 도메인에서 과학을 가속화할 수 있습니다. 투자자들은 이를 인식하고 1130만 달러의 시드 라운드를 투자했습니다. Tola Capital과 Inovia Capital이 이번 라운드를 주도했으며, 천사 투자자 마이크 볼피도 참여했습니다.

Reliant의 기술은 어떤 AI 응용 프로그램이든 매우 컴퓨팅 집약적인 것으로, 대기업 중 하나에서 하드웨어를 빌리는 대신 자체 하드웨어를 구매했습니다. 내부에서 하드웨어를 사용하는 것은 위험과 보상 두 가지를 제공합니다: 비싼 기계를 자기가 지불하게 만들어야 하지만 할당된 컴퓨팅을 활용하여 문제 공간을 해결할 수 있는 기회를 얻을 수 있습니다.

'우리가 발견한 한 가지는 제한된 시간이 주어질 때 좋은 대답을 제공하는 것이 매우 어렵다는 것입니다.'고 모리츠는 설명했습니다. - 예를 들어 과학자가 시스템에게 백 개의 논문을 기반으로 한 새로운 추출 또는 분석 작업을 수행하도록 요청한다면. 빠르게 할 수 있거나 잘 할 수 있지만 둘 다는 할 수 없습니다 - 사용자가 무엇을 물어볼지 예측하고, 또는 미리 그러한 답변을 찾는 방법 등을 이해해야 합니다.

'문제는 많은 사람들이 같은 질문을 하기 때문에 우리는 사전에 물어보기 전에 답을 찾고 시작점으로 삼을 수 있습니다.'라고 수석 과학관 별레메어는 말했습니다. '우리는 100페이지의 텍스트를 다른 것으로 축소시킬 수 있습니다. 당신이 원하는 것이 아니라도 정확히 있는 것은 아닐 수 있지만 우리가 작업하기가 더 쉬워집니다.'

천 권의 소설에서 의미를 추출할 것이라면, 누군가가 등장인물의 이름을 요청할 때까지 기다릴까요? 아니면 위치, 날짜, 관계 등과 같은 작업을 사전에 처리하고, 데이터가 요청될 가능성이 높다는 것을 알기 때문에 그 작업을 수행할까요? 분명히 후자입니다 - 여분의 컴퓨팅 자원이 있다면요.

이 사전 추출은 또한 모델이 서로 다른 과학 도메인에서 발견되는 불확실성과 가정을 해결할 시간을 제공합니다. 어떤 지표가 다른 지표를 '나타내는' 경우, 이는 제약학에서 병리학이나 임상 시험에서의 의미가 같지 않을 수 있습니다. 뿐만 아니라, 언어 모델은 특정 질문 방식에 따라 다른 출력을 제공하는 경향이 있습니다. 따라서 Reliant의 임무는 모호함을 확실함으로 바꾸는 것입니다 - '이것은 특정 과학 또는 도메인에만 투자할 경우에만 할 수 있습니다.'라고 모리츠는 설명했습니다.

회사로서, Reliant의 첫 번째 초점은 더 우수한 차세대 기술을 시도하기 전에 그 기술이 스스로 비용을 지불할 수 있는지 확인하는 것입니다. '흥미로운 진전을 이루기 위해서는 큰 비전이 필요하지만 구체적인 것부터 시작해야 합니다.'라고 모리츠는 말했습니다. '창업 생존 관점에서 우리는 자금을 지불할 수 있는 회사에 초점을 맞추고 있습니다. 우리는 이를 고객에게 손해로 판매하지 않습니다.'

회사 OpenAI와 Anthropc과 같은 회사들로부터 구조화된 작업 (데이터베이스 관리 및 코딩)을 처리하기 위해 자금을 투입하는 것으로 예상할 수 있지만, 협력 파트너인 Cohere와 Scale 등도 그 중 하나입니다. 그러나 벨레메어는 '우리는 이것을 토대로 빌드하고 있습니다 - 기술 스택의 개선은 우리에게 큰 도움이 됩니다. LLM은 8가지 큰 기계학습 모델 중 하나이며, 기타 모델은 완전히 독점적인 것이며 데이터는 우리에게 속해 만들어졌습니다'라고 낙관적입니다.

바이오테크 및 연구 산업이 AI 주도 산업으로 변화하고 있으며 아마도 몇 년 동안은 꽤 이리저리 된 상태일 것입니다. 그러나 Reliant는 출발 지점이 강하다고 보입니다.

'95% 해결책을 원한다면 가끔 고객 중 한 명에게 사과를 한다면 좋습니다.' 모리츠는 말했습니다. '정밀도와 회수가 정말 중요한 곳에서 우리는 있습니다. 실수가 정말 중요하므로 우리는 다른 모든 일을 다른 사람에게 맡기는 것을 행복하게 받아들입니다.'