LAION

OpenAssistant
	파일:Open-Assistant-logo.svg
	파일:Open Assistant Dashboard.png 데이터 수집 웹 포털 스크린샷
개발자	LAION 및 기여자
발표일	2023년 4월 15일(2년 전)
저장소	{{URL\|example.com\|optional display text}}모듈:EditAtWikidata 29번째 줄에서 Lua 오류: attempt to index field 'wikibase' (a nil value).;
엔진	모듈:EditAtWikidata 29번째 줄에서 Lua 오류: attempt to index field 'wikibase' (a nil value).
종류	대형 언어 모델; 생성형 사전 훈련 트랜스포머; 챗봇;
라이선스	Apache License 2.0
웹사이트	open-assistant.io

LAION
	섬네일을 만드는 중 오류 발생:
형태	비영리
창립자	Christoph Schuhmann; Jenia Jitsev; Richard Vencu; Robert Kaczmarczyk; Theo Coombes; Mehdi Cherti; Aarush Katta; Jan Ebert;
산업 분야	인공지능

LAION(Large-scale Artificial Intelligence Open Network의 약자)은 오픈 소스 인공지능 모델과 데이터셋을 만드는 독일의 비영리 단체이다.^[1] 이 단체는 웹에서 스크랩한 대규모 이미지 및 캡션 데이터셋을 공개하여 잘 알려져 있으며, 이 데이터셋은 스테이블 디퓨전과 이마젠을 포함한 여러 유명 텍스트-이미지 모델을 훈련하는 데 사용되었다.^[2]^[3]

2023년 2월, LAION은 게티이미지가 스테이블 디퓨전을 상대로 제기한 소송에 비당사자로 언급되었다.^[4] 2023년 4월, LAION은 자신의 이미지를 훈련 세트에서 제거하기를 원하는 독일 사진작가에 의해 직접 고소되었다.^[5] 2024년 9월, 함부르크 지방법원은 독일과 EU 전반에서 "AI 훈련 데이터에 대한 TDM(텍스트 및 데이터 마이닝) 예외에 대한 획기적인 판결"로 묘사되는 소송을 기각했다.^[6]

2023년 4월 15일, LAION과 기여자들은 OpenAssistant라는 오픈 소스 AI 어시스턴트 챗봇을 공개 출시했다.

이미지 데이터셋

LAION은 AI 연구자들이 널리 사용하는 대규모 이미지-캡션 쌍 데이터셋을 다수 공개했다. 이 데이터는 스크랩된 웹 페이지 데이터셋인 Common Crawl에서 파생되었다. 개발자들은 크롤링된 HTML에서 <img> 태그를 검색하고 해당 Alt 속성을 캡션으로 처리했다. 그들은 CLIP을 사용하여 내용이 캡션과 일치하지 않는 이미지를 식별하고 폐기했다.^[7] LAION은 스크랩된 이미지 자체의 콘텐츠를 호스팅하지 않으며, 데이터셋은 이미지에 대한 URL을 포함하고 있어 연구자들이 직접 다운로드해야 한다.^[8]

최초의 데이터셋인 LAION-400M은 2021년 8월에 공개되었으며, 4억 개의 이미지-캡션 쌍으로 구성되어 있었다. 이 쌍들은 2014년에서 2021년 사이에 Common Crawl에 의해 스크랩된 웹페이지의 무작위 하위 집합에서 추출되었다.^[9] 이는 오픈AI가 CLIP 모델 훈련에 사용한 4억 개의 이미지-캡션 쌍을 수집한 과정을 재현하려는 시도였다. 이 회사는 모델의 코드와 가중치는 오픈 소스로 공개했지만, 훈련 데이터셋은 공개하지 않았다.^[7] 2022년 구글 브레인에서 발표한 텍스트-이미지 모델인 이마젠은 LAION-400M과 개인 내부 데이터셋을 조합하여 훈련되었다.^[10]

50억 쌍 이상으로 구성된 후속작인 LAION-5B는 2022년 3월에 공개되었다.^[11] 출시 당시, 이 데이터셋은 현존하는 가장 큰 무료 이미지-캡션 쌍 데이터셋이었다.^[7] 이 데이터셋의 제작은 Doodlebot, 허깅 페이스, 그리고 스테이블 디퓨전 텍스트-이미지 모델의 자금 지원을 담당한 AI 기업인 Stability AI의 자금 지원을 받았다. 이 모델은 LAION-5B로 훈련되었다.^[12]

비판

여러 연구에 따르면 LAION-5B의 이미지에는 강간, 포르노그래피, 악의적인 고정관념, 인종차별적 비방 및 기타 매우 문제가 되는 내용의 이미지와 텍스트 쌍이 포함되어 있다.^[13]^[14]

바이어리셔 룬트풍크의 조사에 따르면 허깅 페이스에서 호스팅되는 LAION의 데이터셋에는 공개 웹사이트에서 수집된 대량의 사적이고 민감한 데이터가 포함되어 있다.^[15]

2023년 12월, 스탠포드 인터넷 옵저버토리는 LAION-5B에 대한 보고서를 발표했는데, 3,226건의 아동 성착취물 링크 의심 사례가 발견되었으며 이 중 1,008건이 외부에서 확인되었다. 이에 LAION은 "불법 콘텐츠에 대한 무관용 정책"과 "과도한 주의"를 이유로 LAION-5B와 LAION-400M을 일시적으로 제거했다.^[16] 2024년 8월, LAION은 Re-LAION-5B라는 이름의 정제된 데이터셋을 출시했다.^[17]

OpenAssistant

OpenAssistant는 작업을 이해하고, 타사 시스템과 상호 작용하며, 이를 위해 정보를 동적으로 검색할 수 있는 인공지능 (AI) 오픈 소스 챗 기반 어시스턴트이다. 이 프로젝트는 LAION과 협력하여 자원봉사자 그룹에 의해 개발되고 있다. 개발 목표 중 하나는 소비자 하드웨어에서 로컬로 실행할 수 있는 대형 언어 모델에 대한 무료 액세스를 포함한다.^[18]^[19] 이 프로젝트는 60만 건의 사람이 생성한 데이터 포인트를 만든 13,500명 이상의 자원봉사자가 참여한 전 세계적인 크라우드소싱 노력의 지원을 받는다.^[19]^[20]

같이 보기

인공지능과 저작권

각주

↑ “About”. 《LAION.ai》. 2022년 9월 26일에 확인함.
↑ Edwards, Benj (2022년 9월 15일). “Have AI image generators assimilated your art? New tool lets you check”. 《Ars Technica》.
↑ Newman, Marissa; Cantrill, Aggi (2023년 4월 24일). “The Future of AI Relies on a High School Teacher's Free Database” (영어). 《블룸버그 뉴스》. 2023년 4월 24일에 확인함.
↑ “Getty Images (US), Inc. v. Stability AI, Inc., 1:23-cv-00135” (미국 영어). 《CourtListener》. 2023년 2월 8일에 확인함.
↑ “A Photographer Tried to Get His Photos Removed from an AI Dataset. He Got An Invoice Instead.” (미국 영어). 《Vice》. 2023년 4월 28일. 2023년 5월 4일에 확인함.
↑ Goldstein, Paul; Stuetzle, Christiane; Bischoff, Susan (2024년 11월 13일). “Kneschke vs. LAION - Landmark Ruling on TDM exceptions for AI training data – Part 1” (미국 영어). 《Kluwer Copyright Blog》. 2024년 11월 25일에 확인함.
↑ ^가 ^나 ^다 Alford, Anthony (2022년 5월 17일). “LAION Releases Five Billion Image-Text Pair Dataset LAION-5B”. 《InfoQ》.
↑ Edwards, Benj (2022년 9월 21일). “Artist finds private medical record photos in popular AI training data set”. 《Ars Technica》.
↑ Schuhmann, Christoph (2021년 8월 8일). “LAION-400-Million Open Dataset”. 《LAION blog》. 2022년 9월 26일에 확인함.
↑ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Kamyar Seyed Ghasemipour, Seyed; Karagol Ayan, Burcu; Sara Mahdavi, S.; Gontijo Lopes, Rapha; Salimans, Tim; Ho, Jonathan; J Fleet, David; Norouzi, Mohammad (2022년 5월 23일). “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding”. arXiv:2205.11487 [cs.CV].
↑ Beaumont, Romain (2022년 3월 3일). “LAION-5B: A New Era of Open Large-Scale Multi-Modal Datasets”. 《LAION blog》.
↑ Wiggers, Kyle (2022년 8월 12일). “This startup is setting a DALL-E 2-like AI free, consequences be damned”. 《TechCrunch》.
↑ Birhane, Abeba; Prabhu, Vinay Uday; Kahembwe, Emmanuel (2021). 《Multimodal datasets: misogyny, pornography, and malignant stereotypes》. arXiv:2110.01963.
↑ Birhane, Abeba; Prabhu, Vinay; Han, Sang; Boddeti, Vishnu Naresh; Luccioni, Alexandra Sasha (2023년 11월 6일), 《Into the LAIONs Den: Investigating Hate in Multimodal Datasets》, arXiv:2311.03449
↑ Brunner, Katharina; Harlan, Elisa (2023년 6월 7일). “We Are All Raw Material for AI”. 《Bayerischer Rundfunk》.
↑ Cole, Samantha (2023년 12월 20일). “Largest Dataset Powering AI Images Removed After Discovery of Child Sexual Abuse Material” (영어). 《404 Media》. 2023년 12월 22일에 확인함.
↑ Belanger, Ashley (2024년 8월 30일). “Nonprofit scrubs illegal content from controversial AI training dataset” (미국 영어). 《Ars Technica》. 2024년 8월 31일에 확인함.
↑ 《Open-Assistant》, LAION AI, 2023년 3월 9일, 2023년 3월 9일에 확인함
↑ ^가 ^나 Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; Stanley, Oliver; Nagyfi, Richárd; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrew (2023년 4월 14일). “OpenAssistant Conversations -- Democratizing Large Language Model Alignment”. arXiv:2304.07327 [cs.CL].
↑ “Open Assistant: Explore the Possibilities of Open and Collaborative Chatbot Development” (미국 영어). 《KDnuggets》. 2023년 5월 5일에 확인함.

[About-1] “About”. 《LAION.ai》. 2022년 9월 26일에 확인함.

[Ars-Trained-2] Edwards, Benj (2022년 9월 15일). “Have AI image generators assimilated your art? New tool lets you check”. 《Ars Technica》.

[BB_teacher-3] Newman, Marissa; Cantrill, Aggi (2023년 4월 24일). “The Future of AI Relies on a High School Teacher's Free Database” (영어). 《블룸버그 뉴스》. 2023년 4월 24일에 확인함.

[4] “Getty Images (US), Inc. v. Stability AI, Inc., 1:23-cv-00135” (미국 영어). 《CourtListener》. 2023년 2월 8일에 확인함.

[5] “A Photographer Tried to Get His Photos Removed from an AI Dataset. He Got An Invoice Instead.” (미국 영어). 《Vice》. 2023년 4월 28일. 2023년 5월 4일에 확인함.

[:2-6] Goldstein, Paul; Stuetzle, Christiane; Bischoff, Susan (2024년 11월 13일). “Kneschke vs. LAION - Landmark Ruling on TDM exceptions for AI training data – Part 1” (미국 영어). 《Kluwer Copyright Blog》. 2024년 11월 25일에 확인함.

[Infoq-5b-7] 가 ^나 ^다 Alford, Anthony (2022년 5월 17일). “LAION Releases Five Billion Image-Text Pair Dataset LAION-5B”. 《InfoQ》.

[Ars-medical-8] Edwards, Benj (2022년 9월 21일). “Artist finds private medical record photos in popular AI training data set”. 《Ars Technica》.

[Laion-400m-blog-9] Schuhmann, Christoph (2021년 8월 8일). “LAION-400-Million Open Dataset”. 《LAION blog》. 2022년 9월 26일에 확인함.

[imagen-paper-10] Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Kamyar Seyed Ghasemipour, Seyed; Karagol Ayan, Burcu; Sara Mahdavi, S.; Gontijo Lopes, Rapha; Salimans, Tim; Ho, Jonathan; J Fleet, David; Norouzi, Mohammad (2022년 5월 23일). “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding”. arXiv:2205.11487 [cs.CV].

[Laion-5b-blog-11] Beaumont, Romain (2022년 3월 3일). “LAION-5B: A New Era of Open Large-Scale Multi-Modal Datasets”. 《LAION blog》.

[tc-sai-12] Wiggers, Kyle (2022년 8월 12일). “This startup is setting a DALL-E 2-like AI free, consequences be damned”. 《TechCrunch》.

[13] Birhane, Abeba; Prabhu, Vinay Uday; Kahembwe, Emmanuel (2021). 《Multimodal datasets: misogyny, pornography, and malignant stereotypes》. arXiv:2110.01963.

[14] Birhane, Abeba; Prabhu, Vinay; Han, Sang; Boddeti, Vishnu Naresh; Luccioni, Alexandra Sasha (2023년 11월 6일), 《Into the LAIONs Den: Investigating Hate in Multimodal Datasets》, arXiv:2311.03449

[15] Brunner, Katharina; Harlan, Elisa (2023년 6월 7일). “We Are All Raw Material for AI”. 《Bayerischer Rundfunk》.

[16] Cole, Samantha (2023년 12월 20일). “Largest Dataset Powering AI Images Removed After Discovery of Child Sexual Abuse Material” (영어). 《404 Media》. 2023년 12월 22일에 확인함.

[17] Belanger, Ashley (2024년 8월 30일). “Nonprofit scrubs illegal content from controversial AI training dataset” (미국 영어). 《Ars Technica》. 2024년 8월 31일에 확인함.

[18] 《Open-Assistant》, LAION AI, 2023년 3월 9일, 2023년 3월 9일에 확인함

[:0-19] 가 ^나 Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; Stanley, Oliver; Nagyfi, Richárd; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrew (2023년 4월 14일). “OpenAssistant Conversations -- Democratizing Large Language Model Alignment”. arXiv:2304.07327 [cs.CL].

[20] “Open Assistant: Explore the Possibilities of Open and Collaborative Chatbot Development” (미국 영어). 《KDnuggets》. 2023년 5월 5일에 확인함.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]