본문으로 이동

LAION

한울위키, 우리 모두의 백과사전.
LAION
형태비영리
창립자
  • Christoph Schuhmann
  • Jenia Jitsev
  • Richard Vencu
  • Robert Kaczmarczyk
  • Theo Coombes
  • Mehdi Cherti
  • Aarush Katta
  • Jan Ebert
산업 분야인공지능

LAION(Large-scale Artificial Intelligence Open Network의 약자)은 오픈 소스 인공지능 모델과 데이터셋을 만드는 독일의 비영리 단체이다.[1] 이 단체는 웹에서 스크랩한 대규모 이미지 및 캡션 데이터셋을 공개하여 잘 알려져 있으며, 이 데이터셋은 스테이블 디퓨전이마젠을 포함한 여러 유명 텍스트-이미지 모델을 훈련하는 데 사용되었다.[2][3]

2023년 2월, LAION은 게티이미지스테이블 디퓨전을 상대로 제기한 소송에 비당사자로 언급되었다.[4] 2023년 4월, LAION은 자신의 이미지를 훈련 세트에서 제거하기를 원하는 독일 사진작가에 의해 직접 고소되었다.[5] 2024년 9월, 함부르크 지방법원은 독일과 EU 전반에서 "AI 훈련 데이터에 대한 TDM(텍스트 및 데이터 마이닝) 예외에 대한 획기적인 판결"로 묘사되는 소송을 기각했다.[6]

2023년 4월 15일, LAION과 기여자들은 OpenAssistant라는 오픈 소스 AI 어시스턴트 챗봇을 공개 출시했다.

이미지 데이터셋

LAION은 AI 연구자들이 널리 사용하는 대규모 이미지-캡션 쌍 데이터셋을 다수 공개했다. 이 데이터는 스크랩된 웹 페이지 데이터셋인 Common Crawl에서 파생되었다. 개발자들은 크롤링된 HTML에서 <img> 태그를 검색하고 해당 Alt 속성을 캡션으로 처리했다. 그들은 CLIP을 사용하여 내용이 캡션과 일치하지 않는 이미지를 식별하고 폐기했다.[7] LAION은 스크랩된 이미지 자체의 콘텐츠를 호스팅하지 않으며, 데이터셋은 이미지에 대한 URL을 포함하고 있어 연구자들이 직접 다운로드해야 한다.[8]

최초의 데이터셋인 LAION-400M은 2021년 8월에 공개되었으며, 4억 개의 이미지-캡션 쌍으로 구성되어 있었다. 이 쌍들은 2014년에서 2021년 사이에 Common Crawl에 의해 스크랩된 웹페이지의 무작위 하위 집합에서 추출되었다.[9] 이는 오픈AI가 CLIP 모델 훈련에 사용한 4억 개의 이미지-캡션 쌍을 수집한 과정을 재현하려는 시도였다. 이 회사는 모델의 코드와 가중치는 오픈 소스로 공개했지만, 훈련 데이터셋은 공개하지 않았다.[7] 2022년 구글 브레인에서 발표한 텍스트-이미지 모델인 이마젠은 LAION-400M과 개인 내부 데이터셋을 조합하여 훈련되었다.[10]

50억 쌍 이상으로 구성된 후속작인 LAION-5B는 2022년 3월에 공개되었다.[11] 출시 당시, 이 데이터셋은 현존하는 가장 큰 무료 이미지-캡션 쌍 데이터셋이었다.[7] 이 데이터셋의 제작은 Doodlebot, 허깅 페이스, 그리고 스테이블 디퓨전 텍스트-이미지 모델의 자금 지원을 담당한 AI 기업인 Stability AI의 자금 지원을 받았다. 이 모델은 LAION-5B로 훈련되었다.[12]

비판

여러 연구에 따르면 LAION-5B의 이미지에는 강간, 포르노그래피, 악의적인 고정관념, 인종차별적 비방 및 기타 매우 문제가 되는 내용의 이미지와 텍스트 쌍이 포함되어 있다.[13][14]

바이어리셔 룬트풍크의 조사에 따르면 허깅 페이스에서 호스팅되는 LAION의 데이터셋에는 공개 웹사이트에서 수집된 대량의 사적이고 민감한 데이터가 포함되어 있다.[15]

2023년 12월, 스탠포드 인터넷 옵저버토리는 LAION-5B에 대한 보고서를 발표했는데, 3,226건의 아동 성착취물 링크 의심 사례가 발견되었으며 이 중 1,008건이 외부에서 확인되었다. 이에 LAION은 "불법 콘텐츠에 대한 무관용 정책"과 "과도한 주의"를 이유로 LAION-5B와 LAION-400M을 일시적으로 제거했다.[16] 2024년 8월, LAION은 Re-LAION-5B라는 이름의 정제된 데이터셋을 출시했다.[17]

OpenAssistant

OpenAssistant
개발자LAION 및 기여자
발표일2023년 4월 15일(2년 전)(2023-04-15)
저장소
  • {{URL|example.com|optional display text}}모듈:EditAtWikidata 29번째 줄에서 Lua 오류: attempt to index field 'wikibase' (a nil value).
엔진
    모듈:EditAtWikidata 29번째 줄에서 Lua 오류: attempt to index field 'wikibase' (a nil value).
    종류
    라이선스Apache License 2.0
    웹사이트open-assistant.io

    OpenAssistant는 작업을 이해하고, 타사 시스템과 상호 작용하며, 이를 위해 정보를 동적으로 검색할 수 있는 인공지능 (AI) 오픈 소스 챗 기반 어시스턴트이다. 이 프로젝트는 LAION과 협력하여 자원봉사자 그룹에 의해 개발되고 있다. 개발 목표 중 하나는 소비자 하드웨어에서 로컬로 실행할 수 있는 대형 언어 모델에 대한 무료 액세스를 포함한다.[18][19] 이 프로젝트는 60만 건의 사람이 생성한 데이터 포인트를 만든 13,500명 이상의 자원봉사자가 참여한 전 세계적인 크라우드소싱 노력의 지원을 받는다.[19][20]

    같이 보기

    각주

    1. “About”. 《LAION.ai》. 2022년 9월 26일에 확인함. 
    2. Edwards, Benj (2022년 9월 15일). “Have AI image generators assimilated your art? New tool lets you check”. 《Ars Technica》. 
    3. Newman, Marissa; Cantrill, Aggi (2023년 4월 24일). “The Future of AI Relies on a High School Teacher's Free Database” (영어). 《블룸버그 뉴스. 2023년 4월 24일에 확인함. 
    4. “Getty Images (US), Inc. v. Stability AI, Inc., 1:23-cv-00135” (미국 영어). 《CourtListener》. 2023년 2월 8일에 확인함. 
    5. “A Photographer Tried to Get His Photos Removed from an AI Dataset. He Got An Invoice Instead.” (미국 영어). 《Vice》. 2023년 4월 28일. 2023년 5월 4일에 확인함. 
    6. Goldstein, Paul; Stuetzle, Christiane; Bischoff, Susan (2024년 11월 13일). “Kneschke vs. LAION - Landmark Ruling on TDM exceptions for AI training data – Part 1” (미국 영어). 《Kluwer Copyright Blog》. 2024년 11월 25일에 확인함. 
    7. Alford, Anthony (2022년 5월 17일). “LAION Releases Five Billion Image-Text Pair Dataset LAION-5B”. 《InfoQ》. 
    8. Edwards, Benj (2022년 9월 21일). “Artist finds private medical record photos in popular AI training data set”. 《Ars Technica》. 
    9. Schuhmann, Christoph (2021년 8월 8일). “LAION-400-Million Open Dataset”. 《LAION blog》. 2022년 9월 26일에 확인함. 
    10. Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Kamyar Seyed Ghasemipour, Seyed; Karagol Ayan, Burcu; Sara Mahdavi, S.; Gontijo Lopes, Rapha; Salimans, Tim; Ho, Jonathan; J Fleet, David; Norouzi, Mohammad (2022년 5월 23일). “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding”. arXiv:2205.11487 [cs.CV]. 
    11. Beaumont, Romain (2022년 3월 3일). “LAION-5B: A New Era of Open Large-Scale Multi-Modal Datasets”. 《LAION blog》. 
    12. Wiggers, Kyle (2022년 8월 12일). “This startup is setting a DALL-E 2-like AI free, consequences be damned”. 《TechCrunch》. 
    13. Birhane, Abeba; Prabhu, Vinay Uday; Kahembwe, Emmanuel (2021). 《Multimodal datasets: misogyny, pornography, and malignant stereotypes》. arXiv:2110.01963. 
    14. Birhane, Abeba; Prabhu, Vinay; Han, Sang; Boddeti, Vishnu Naresh; Luccioni, Alexandra Sasha (2023년 11월 6일), 《Into the LAIONs Den: Investigating Hate in Multimodal Datasets》, arXiv:2311.03449 
    15. Brunner, Katharina; Harlan, Elisa (2023년 6월 7일). “We Are All Raw Material for AI”. 《Bayerischer Rundfunk》. 
    16. Cole, Samantha (2023년 12월 20일). “Largest Dataset Powering AI Images Removed After Discovery of Child Sexual Abuse Material” (영어). 《404 Media》. 2023년 12월 22일에 확인함. 
    17. Belanger, Ashley (2024년 8월 30일). “Nonprofit scrubs illegal content from controversial AI training dataset” (미국 영어). 《Ars Technica》. 2024년 8월 31일에 확인함. 
    18. 《Open-Assistant》, LAION AI, 2023년 3월 9일, 2023년 3월 9일에 확인함 
    19. Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; Stanley, Oliver; Nagyfi, Richárd; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrew (2023년 4월 14일). “OpenAssistant Conversations -- Democratizing Large Language Model Alignment”. arXiv:2304.07327 [cs.CL]. 
    20. “Open Assistant: Explore the Possibilities of Open and Collaborative Chatbot Development” (미국 영어). 《KDnuggets》. 2023년 5월 5일에 확인함.