LAION
| 섬네일을 만드는 중 오류 발생: | |
| 형태 | 비영리 |
|---|---|
| 창립자 |
|
| 산업 분야 | 인공지능 |
LAION(Large-scale Artificial Intelligence Open Network의 약자)은 오픈 소스 인공지능 모델과 데이터셋을 만드는 독일의 비영리 단체이다.[1] 이 단체는 웹에서 스크랩한 대규모 이미지 및 캡션 데이터셋을 공개하여 잘 알려져 있으며, 이 데이터셋은 스테이블 디퓨전과 이마젠을 포함한 여러 유명 텍스트-이미지 모델을 훈련하는 데 사용되었다.[2][3]
2023년 2월, LAION은 게티이미지가 스테이블 디퓨전을 상대로 제기한 소송에 비당사자로 언급되었다.[4] 2023년 4월, LAION은 자신의 이미지를 훈련 세트에서 제거하기를 원하는 독일 사진작가에 의해 직접 고소되었다.[5] 2024년 9월, 함부르크 지방법원은 독일과 EU 전반에서 "AI 훈련 데이터에 대한 TDM(텍스트 및 데이터 마이닝) 예외에 대한 획기적인 판결"로 묘사되는 소송을 기각했다.[6]
2023년 4월 15일, LAION과 기여자들은 OpenAssistant라는 오픈 소스 AI 어시스턴트 챗봇을 공개 출시했다.
이미지 데이터셋
LAION은 AI 연구자들이 널리 사용하는 대규모 이미지-캡션 쌍 데이터셋을 다수 공개했다. 이 데이터는 스크랩된 웹 페이지 데이터셋인 Common Crawl에서 파생되었다. 개발자들은 크롤링된 HTML에서 <img> 태그를 검색하고 해당 Alt 속성을 캡션으로 처리했다. 그들은 CLIP을 사용하여 내용이 캡션과 일치하지 않는 이미지를 식별하고 폐기했다.[7] LAION은 스크랩된 이미지 자체의 콘텐츠를 호스팅하지 않으며, 데이터셋은 이미지에 대한 URL을 포함하고 있어 연구자들이 직접 다운로드해야 한다.[8]
최초의 데이터셋인 LAION-400M은 2021년 8월에 공개되었으며, 4억 개의 이미지-캡션 쌍으로 구성되어 있었다. 이 쌍들은 2014년에서 2021년 사이에 Common Crawl에 의해 스크랩된 웹페이지의 무작위 하위 집합에서 추출되었다.[9] 이는 오픈AI가 CLIP 모델 훈련에 사용한 4억 개의 이미지-캡션 쌍을 수집한 과정을 재현하려는 시도였다. 이 회사는 모델의 코드와 가중치는 오픈 소스로 공개했지만, 훈련 데이터셋은 공개하지 않았다.[7] 2022년 구글 브레인에서 발표한 텍스트-이미지 모델인 이마젠은 LAION-400M과 개인 내부 데이터셋을 조합하여 훈련되었다.[10]
50억 쌍 이상으로 구성된 후속작인 LAION-5B는 2022년 3월에 공개되었다.[11] 출시 당시, 이 데이터셋은 현존하는 가장 큰 무료 이미지-캡션 쌍 데이터셋이었다.[7] 이 데이터셋의 제작은 Doodlebot, 허깅 페이스, 그리고 스테이블 디퓨전 텍스트-이미지 모델의 자금 지원을 담당한 AI 기업인 Stability AI의 자금 지원을 받았다. 이 모델은 LAION-5B로 훈련되었다.[12]
비판
여러 연구에 따르면 LAION-5B의 이미지에는 강간, 포르노그래피, 악의적인 고정관념, 인종차별적 비방 및 기타 매우 문제가 되는 내용의 이미지와 텍스트 쌍이 포함되어 있다.[13][14]
바이어리셔 룬트풍크의 조사에 따르면 허깅 페이스에서 호스팅되는 LAION의 데이터셋에는 공개 웹사이트에서 수집된 대량의 사적이고 민감한 데이터가 포함되어 있다.[15]
2023년 12월, 스탠포드 인터넷 옵저버토리는 LAION-5B에 대한 보고서를 발표했는데, 3,226건의 아동 성착취물 링크 의심 사례가 발견되었으며 이 중 1,008건이 외부에서 확인되었다. 이에 LAION은 "불법 콘텐츠에 대한 무관용 정책"과 "과도한 주의"를 이유로 LAION-5B와 LAION-400M을 일시적으로 제거했다.[16] 2024년 8월, LAION은 Re-LAION-5B라는 이름의 정제된 데이터셋을 출시했다.[17]
OpenAssistant
| 파일:Open-Assistant-logo.svg | |
| 파일:Open Assistant Dashboard.png 데이터 수집 웹 포털 스크린샷 | |
| 개발자 | LAION 및 기여자 |
|---|---|
| 발표일 | 2023년 4월 15일 |
| 저장소 |
|
| 엔진 | |
| 종류 | |
| 라이선스 | Apache License 2.0 |
| 웹사이트 | open-assistant |
OpenAssistant는 작업을 이해하고, 타사 시스템과 상호 작용하며, 이를 위해 정보를 동적으로 검색할 수 있는 인공지능 (AI) 오픈 소스 챗 기반 어시스턴트이다. 이 프로젝트는 LAION과 협력하여 자원봉사자 그룹에 의해 개발되고 있다. 개발 목표 중 하나는 소비자 하드웨어에서 로컬로 실행할 수 있는 대형 언어 모델에 대한 무료 액세스를 포함한다.[18][19] 이 프로젝트는 60만 건의 사람이 생성한 데이터 포인트를 만든 13,500명 이상의 자원봉사자가 참여한 전 세계적인 크라우드소싱 노력의 지원을 받는다.[19][20]
같이 보기
각주
- ↑ “About”. 《LAION.ai》. 2022년 9월 26일에 확인함.
- ↑ Edwards, Benj (2022년 9월 15일). “Have AI image generators assimilated your art? New tool lets you check”. 《Ars Technica》.
- ↑ Newman, Marissa; Cantrill, Aggi (2023년 4월 24일). “The Future of AI Relies on a High School Teacher's Free Database” (영어). 《블룸버그 뉴스》. 2023년 4월 24일에 확인함.
- ↑ “Getty Images (US), Inc. v. Stability AI, Inc., 1:23-cv-00135” (미국 영어). 《CourtListener》. 2023년 2월 8일에 확인함.
- ↑ “A Photographer Tried to Get His Photos Removed from an AI Dataset. He Got An Invoice Instead.” (미국 영어). 《Vice》. 2023년 4월 28일. 2023년 5월 4일에 확인함.
- ↑ Goldstein, Paul; Stuetzle, Christiane; Bischoff, Susan (2024년 11월 13일). “Kneschke vs. LAION - Landmark Ruling on TDM exceptions for AI training data – Part 1” (미국 영어). 《Kluwer Copyright Blog》. 2024년 11월 25일에 확인함.
- ↑ 가 나 다 Alford, Anthony (2022년 5월 17일). “LAION Releases Five Billion Image-Text Pair Dataset LAION-5B”. 《InfoQ》.
- ↑ Edwards, Benj (2022년 9월 21일). “Artist finds private medical record photos in popular AI training data set”. 《Ars Technica》.
- ↑ Schuhmann, Christoph (2021년 8월 8일). “LAION-400-Million Open Dataset”. 《LAION blog》. 2022년 9월 26일에 확인함.
- ↑ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Kamyar Seyed Ghasemipour, Seyed; Karagol Ayan, Burcu; Sara Mahdavi, S.; Gontijo Lopes, Rapha; Salimans, Tim; Ho, Jonathan; J Fleet, David; Norouzi, Mohammad (2022년 5월 23일). “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding”. arXiv:2205.11487 [cs.CV].
- ↑ Beaumont, Romain (2022년 3월 3일). “LAION-5B: A New Era of Open Large-Scale Multi-Modal Datasets”. 《LAION blog》.
- ↑ Wiggers, Kyle (2022년 8월 12일). “This startup is setting a DALL-E 2-like AI free, consequences be damned”. 《TechCrunch》.
- ↑ Birhane, Abeba; Prabhu, Vinay Uday; Kahembwe, Emmanuel (2021). 《Multimodal datasets: misogyny, pornography, and malignant stereotypes》. arXiv:2110.01963.
- ↑ Birhane, Abeba; Prabhu, Vinay; Han, Sang; Boddeti, Vishnu Naresh; Luccioni, Alexandra Sasha (2023년 11월 6일), 《Into the LAIONs Den: Investigating Hate in Multimodal Datasets》, arXiv:2311.03449
- ↑ Brunner, Katharina; Harlan, Elisa (2023년 6월 7일). “We Are All Raw Material for AI”. 《Bayerischer Rundfunk》.
- ↑ Cole, Samantha (2023년 12월 20일). “Largest Dataset Powering AI Images Removed After Discovery of Child Sexual Abuse Material” (영어). 《404 Media》. 2023년 12월 22일에 확인함.
- ↑ Belanger, Ashley (2024년 8월 30일). “Nonprofit scrubs illegal content from controversial AI training dataset” (미국 영어). 《Ars Technica》. 2024년 8월 31일에 확인함.
- ↑ 《Open-Assistant》, LAION AI, 2023년 3월 9일, 2023년 3월 9일에 확인함
- ↑ 가 나 Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; Stanley, Oliver; Nagyfi, Richárd; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrew (2023년 4월 14일). “OpenAssistant Conversations -- Democratizing Large Language Model Alignment”. arXiv:2304.07327 [cs.CL].
- ↑ “Open Assistant: Explore the Possibilities of Open and Collaborative Chatbot Development” (미국 영어). 《KDnuggets》. 2023년 5월 5일에 확인함.
- 스크립트 오류가 있는 문서
- CS1 - 영어 인용 (en)
- CS1 - 미국 영어 인용 (en)
- 인용 오류 - 오래된 변수를 사용함
- 잘못된 파일 링크가 포함된 문서
- 위키데이터 속성 P18을 사용하는 문서
- 위키데이터 속성 P41을 사용하는 문서
- 위키데이터 속성 P94를 사용하는 문서
- 위키데이터 속성 P117을 사용하는 문서
- 위키데이터 속성 P154를 사용하는 문서
- 위키데이터 속성 P213을 사용하는 문서
- 위키데이터 속성 P227을 사용하는 문서
- 위키데이터 속성 P242를 사용하는 문서
- 위키데이터 속성 P244를 사용하는 문서
- 위키데이터 속성 P245를 사용하는 문서
- 위키데이터 속성 P268을 사용하는 문서
- 위키데이터 속성 P269를 사용하는 문서
- 위키데이터 속성 P271을 사용하는 문서
- 위키데이터 속성 P347을 사용하는 문서
- 위키데이터 속성 P349를 사용하는 문서
- 위키데이터 속성 P350을 사용하는 문서
- 위키데이터 속성 P373을 사용하는 문서
- 위키데이터 속성 P380을 사용하는 문서
- 위키데이터 속성 P396을 사용하는 문서
- 위키데이터 속성 P409를 사용하는 문서
- 위키데이터 속성 P428을 사용하는 문서
- 위키데이터 속성 P434를 사용하는 문서
- 위키데이터 속성 P435를 사용하는 문서
- 위키데이터 속성 P436을 사용하는 문서
- 위키데이터 속성 P454를 사용하는 문서
- 위키데이터 속성 P496을 사용하는 문서
- 위키데이터 속성 P549를 사용하는 문서
- 위키데이터 속성 P650을 사용하는 문서
- 위키데이터 속성 P651을 사용하는 문서
- 위키데이터 속성 P691을 사용하는 문서
- 위키데이터 속성 P716을 사용하는 문서
- 위키데이터 속성 P781을 사용하는 문서
- 위키데이터 속성 P791을 사용하는 문서
- 위키데이터 속성 P864를 사용하는 문서
- 위키데이터 속성 P865를 사용하는 문서
- 위키데이터 속성 P886을 사용하는 문서
- 위키데이터 속성 P902를 사용하는 문서
- 위키데이터 속성 P906을 사용하는 문서
- 위키데이터 속성 P947을 사용하는 문서
- 위키데이터 속성 P950을 사용하는 문서
- 위키데이터 속성 P966을 사용하는 문서
- 위키데이터 속성 P982를 사용하는 문서
- 위키데이터 속성 P1003을 사용하는 문서
- 위키데이터 속성 P1004를 사용하는 문서
- 위키데이터 속성 P1005를 사용하는 문서
- 위키데이터 속성 P1006을 사용하는 문서
- 위키데이터 속성 P1015를 사용하는 문서
- 위키데이터 속성 P1045를 사용하는 문서
- 위키데이터 속성 P1048을 사용하는 문서
- 위키데이터 속성 P1053을 사용하는 문서
- 위키데이터 속성 P1146을 사용하는 문서
- 위키데이터 속성 P1153을 사용하는 문서
- 위키데이터 속성 P1157을 사용하는 문서
- 위키데이터 속성 P1186을 사용하는 문서
- 위키데이터 속성 P1225를 사용하는 문서
- 위키데이터 속성 P1248을 사용하는 문서
- 위키데이터 속성 P1273을 사용하는 문서
- 위키데이터 속성 P1315를 사용하는 문서
- 위키데이터 속성 P1323을 사용하는 문서
- 위키데이터 속성 P1330을 사용하는 문서
- 위키데이터 속성 P1362를 사용하는 문서
- 위키데이터 속성 P1368을 사용하는 문서
- 위키데이터 속성 P1375를 사용하는 문서
- 위키데이터 속성 P1407을 사용하는 문서
- 위키데이터 속성 P1556을 사용하는 문서
- 위키데이터 속성 P1584를 사용하는 문서
- 위키데이터 속성 P1695를 사용하는 문서
- 위키데이터 속성 P1707을 사용하는 문서
- 위키데이터 속성 P1736을 사용하는 문서
- 위키데이터 속성 P1886을 사용하는 문서
- 위키데이터 속성 P1890을 사용하는 문서
- 위키데이터 속성 P1907을 사용하는 문서
- 위키데이터 속성 P1908을 사용하는 문서
- 위키데이터 속성 P1960을 사용하는 문서
- 위키데이터 속성 P1986을 사용하는 문서
- 위키데이터 속성 P2041을 사용하는 문서
- 위키데이터 속성 P2163을 사용하는 문서
- 위키데이터 속성 P2174를 사용하는 문서
- 위키데이터 속성 P2268을 사용하는 문서
- 위키데이터 속성 P2349를 사용하는 문서
- 위키데이터 속성 P2418을 사용하는 문서
- 위키데이터 속성 P2456을 사용하는 문서
- 위키데이터 속성 P2484를 사용하는 문서
- 위키데이터 속성 P2558을 사용하는 문서
- 위키데이터 속성 P2750을 사용하는 문서
- 위키데이터 속성 P2980을 사용하는 문서
- 위키데이터 속성 P3223을 사용하는 문서
- 위키데이터 속성 P3233을 사용하는 문서
- 위키데이터 속성 P3348을 사용하는 문서
- 위키데이터 속성 P3372를 사용하는 문서
- 위키데이터 속성 P3407을 사용하는 문서
- 위키데이터 속성 P3430을 사용하는 문서
- 위키데이터 속성 P3544를 사용하는 문서
- 위키데이터 속성 P3562를 사용하는 문서
- 위키데이터 속성 P3563을 사용하는 문서
- 위키데이터 속성 P3601을 사용하는 문서
- 위키데이터 속성 P3723을 사용하는 문서
- 위키데이터 속성 P3788을 사용하는 문서
- 위키데이터 속성 P3829를 사용하는 문서
- 위키데이터 속성 P3863을 사용하는 문서
- 위키데이터 속성 P3920을 사용하는 문서
- 위키데이터 속성 P3993을 사용하는 문서
- 위키데이터 속성 P4038을 사용하는 문서
- 위키데이터 속성 P4055를 사용하는 문서
- 위키데이터 속성 P4114를 사용하는 문서
- 위키데이터 속성 P4143을 사용하는 문서
- 위키데이터 속성 P4186을 사용하는 문서
- 위키데이터 속성 P4423을 사용하는 문서
- 위키데이터 속성 P4457을 사용하는 문서
- 위키데이터 속성 P4534를 사용하는 문서
- 위키데이터 속성 P4535를 사용하는 문서
- 위키데이터 속성 P4581을 사용하는 문서
- 위키데이터 속성 P4613을 사용하는 문서
- 위키데이터 속성 P4955를 사용하는 문서
- 위키데이터 속성 P5034를 사용하는 문서
- 위키데이터 속성 P5226을 사용하는 문서
- 위키데이터 속성 P5288을 사용하는 문서
- 위키데이터 속성 P5302를 사용하는 문서
- 위키데이터 속성 P5321을 사용하는 문서
- 위키데이터 속성 P5368을 사용하는 문서
- 위키데이터 속성 P5504를 사용하는 문서
- 위키데이터 속성 P5587을 사용하는 문서
- 위키데이터 속성 P5736을 사용하는 문서
- 위키데이터 속성 P5818을 사용하는 문서
- 위키데이터 속성 P6213을 사용하는 문서
- 위키데이터 속성 P6734를 사용하는 문서
- 위키데이터 속성 P6792를 사용하는 문서
- 위키데이터 속성 P6804를 사용하는 문서
- 위키데이터 속성 P6829를 사용하는 문서
- 위키데이터 속성 P7293을 사용하는 문서
- 위키데이터 속성 P7303을 사용하는 문서
- 위키데이터 속성 P7314를 사용하는 문서
- 위키데이터 속성 P7902를 사용하는 문서
- 위키데이터 속성 P8034를 사용하는 문서
- 위키데이터 속성 P8189를 사용하는 문서
- 위키데이터 속성 P8381을 사용하는 문서
- 위키데이터 속성 P8671을 사용하는 문서
- 위키데이터 속성 P8980을 사용하는 문서
- 위키데이터 속성 P9070을 사용하는 문서
- 위키데이터 속성 P9692를 사용하는 문서
- 위키데이터 속성 P9725를 사용하는 문서
- 위키데이터 속성 P9984를 사용하는 문서
- 위키데이터 속성 P10020을 사용하는 문서
- 위키데이터 속성 P10299를 사용하는 문서
- 위키데이터 속성 P10608을 사용하는 문서
- 위키데이터 속성 P10832를 사용하는 문서
- 위키데이터 속성 P11249를 사용하는 문서
- 위키데이터 속성 P11646을 사용하는 문서
- 위키데이터 속성 P11729를 사용하는 문서
- 위키데이터 속성 P12204를 사용하는 문서
- 위키데이터 속성 P12362를 사용하는 문서
- 위키데이터 속성 P12754를 사용하는 문서
- 위키데이터 속성 P13049를 사용하는 문서
- 인공지능의 응용
- 독일의 비영리 단체
- 오픈 소스 인공지능