
Надпреварата да се пуснат все по-мощни модели на ИИ е колосална. Всяка седмица някой от гигантите пуска нов модел, който бие всички останали. Освен големите: OpenAI, Microsoft, Google, Meta, X, Anthropic и Perplexity в Hugging face има публикувани над милион и двеста хиляди (1 226 845 по точно, но утре ще са повече) модела, които обхващат множество задачи, най-често обработка на естествен език и компютърно зрение. 1152 са на бълтарски език (след Нова година ще са повече – следете тук: https://huggingface.co/languages).
- Обработка на естествен език (Natural Language Processing, NLP) е област от изкуствения интелект, която позволява на компютрите да разбират, анализират и генерират човешки език. Целта е машините да работят с текст и реч по начин, който е естествен за хората. Примери са: автоматичен превод между езици; генериране на текст (напр. писане на статии или отговори в чат); анализ на настроения (дали текстът е позитивен, негативен или неутрален); разпознаване на реч (превръщане на говор в текст) и обратно и много други.
- Компютърно зрение (Computer Vision) е област от изкуствения интелект, която се занимава с разбирането и анализа на изображения и видеоклипове. Целта е машините да „виждат“ света около тях, подобно на начина, по който хората използват зрението си, за да разпознават обекти, сцени, движения и други характеристики в реалния свят. Примери са: разпознаване на лица; медицинска диагностика; автономни автомобили; идентификация на обекти и много други.
За да се захрани всеки един модел са необходими данни. И големият въпрос е от къде се взимат тези данни? Отговорът търси Инициативата за произход на данните (Data Provenance Initiative): изследователи в областта на изкуствения интелект, които работят за повишаване на прозрачността и отговорното използване на обучаващи набори от данни за AI модели. Те провеждат мащабни анализи на популярни текстови, речеви и видео набори от данни, проследявайки техния произход, създатели, лицензи и други метаданни. През 2024 година Инициативата публикува резултатите от две големи проучвания, които в голяма степен дават отговор на този, а и други любопитни въпроси. Те анализират близо 4000 набора от данни между 1990-2024 г., обхващащи 443 уникални задачи, извлечени от 798 оригинални източника и конструирани от 659 организации, обхващащи 67 държави, над 1 трилион токена текст и 1,9 милиона часа речево и видео съдържание.
* Токенът е малка част от текст, която моделите използват, за да разбират и обработват информация. Той може да е дума, част от дума или знак, като например „кола“, „не-“ или препинателен знак „?“. Езиковите модели разграждат текста на токени, за да могат да го анализират по-лесно. Една стандартна книга с около 100 000 думи (300 страници) има приблизително 500 000–750 000 токена; Wikipedia на английски има около 3 милиарда токена.
При тектовите набори от данни, приблизително 85% са от уеб. Или това са данни, „изсмукани“ от уеб страници като напр. Wikipedia, новинарски сайтове, лични сайтове и социалните медии. Големият въпрос е – как тези данни са добити, и нарушени ли са авторски права? По тази тема вече текат големи дела в САЩ, по някои се постигна споразумение. Освен това социалните медии са две: на Мета и на Илон Мъск. Това дава много силно конкурентно предимство именно на тези две компании. 5% от текстовите данни са от книги, правителствени документи, научни трудове. 10% са синтетични данни* през 2024 г. Четири години по-рано са били едва 0.1% от всички данни.
* Синтетични данни са изкуствено генерирани данни, които обикновено се използват за обучение на модели на изкуствен интелект. Те могат да бъдат генерирани чрез различни техники, като симулации, алгоритми за машинно обучение или други автоматизирани процеси, вместо да бъдат събирани от реални източници, като например уеб сайтове, бази данни или физически наблюдения.
Какво означава това? Синтетичните данни могат да се генерират в големи количества и да се нагласят според нуждите на задачата. Те не съдържат реални лични данни, което ги прави по-сигурни за използване. Освен това могат да се използват, когато има липса на реални данни за определени ситуации или явления. Също така могат да бъдат използвани за симулации на редки събития, които е трудно да се наблюдават в реалността. НО! Могат да не са достатъчно реалистични и да не показват пълната картина на наблюдаваните процеси или явления, както и да не могат да уловят малки, но съществени детайли. От друга страна ако моделът, който ги генерира, не е добре направен, синтетичните данни могат да съдържат грешки и изцяло да изкривят резултата. Един хубав пример свързан с личните ни финанси, и с който аз наскоро се сблъсках и в последствие проучих защо така ми се случи: имам кредитна карта, която рядко използвам. Наложи ми се да платя голяма сума с нея, и картата ми биде блокирана. Синтетично генерираният сценарий: рядко използвана кредитна карта за малки суми – еднократно голямо плащане – вероятно е злоупотреба и картата автоматично се блокира. Дни ми отне да я разблокирам….големи главоболия….
И сега нека се върнем горе – на сайтовете. Макар да няма данни каква част от текстовете в интернет се генерират от ИИ, предполага се че нарастват значително. Т.е. в някакъв момент моделите ще се обучават на набори от данни, които са изкуствено генерирани…И да – няма достоверен 100% механизъм да се провери дали даден текст е написан от ИИ, или от човек. Каквото и да ви говорят.
При видео наборите от данни YouTube представлява около 71% от данните, използвани за обучение на AI модели. 15% са синтетичните данни. (т.напр. VidProm, създаден през 2024 г., включва приблизително 7 милиона синтетично генерирани видеоклипа). Под 5% са данните, генерирани от телевизионни предавания, филми и други, създадени от хора.
При речевите данни (класовите данни) положението е малко по-различно: приблизително 70% са генерирани от уеб и социални медии, като преобладава YouTube. 25% са генерирани от аудиокниги, подкасти, данни от колцентрове („вашето обаждане се записва“) и други, създадени от хора. 5% са синтетичните данни.
Ясно личи огромното предимство на Алфабет, собственик на YouTube. Достъпът до видео и гласови данни дава огромно предимство и не е ясно как те се използват от другите големи и малки играчи във все по-разрастващия се ИИ-бранш.
Но има и още интересни находки от изследователите от Инициативата за произход на данните: географското разпределение на данните.
ЛИНК КЪМ ИНТЕРАКТИВНА КАРТА (това е линк към интерактивна карта на света, показваща по държави колко набори от данни са попаднали в изследването)
Географското разпределение на данните за обучение на изкуствен интелект е силно изкривено към западните страни, въпреки увеличаването на количеството данни от различни региони и езици. Според анализ на почти 4000 публични набора данни между 1990 и 2024 година:
- Северна Америка и Европа доминират в създаването на текстови, говорни и видео данни, представлявайки над 90% от текстовите токени и над 60% от часовете реч и видео съдържание. В същото време, Африка и Южна Америка са слабо представени, като техният принос е под 0.2% за всички разновидности (текст, реч и видео).
- Въпреки увеличаването на броя на представените езици и държави в данните, индексът на Джини, използван за измерване на равномерността в разпределението, показва, че неравенството остава високо от 2013 година насам. Това означава, че новите данни не са достатъчни, за да компенсират доминацията на западните източници.
- Броят на представените езици в текстовите и говорните данни е нараснал, но разпределението между тях остава концентрирано, като много от новите набори от данни все още са основно едноезични.
Какво означава това?
Данните, използвани за обучение на изкуствен интелект, са доминирани от няколко широко разпространени езика (английски, испански, китайски), докато по-малко използваните или регионални езици остават слабо представени. Това създава дисбаланс, при който моделите са по-добре адаптирани към доминиращите езици. Много от новите набори от данни са създадени с фокус върху един език (напр. български). Това означава, че дори когато се добавят нови езици, данните за тях са сравнително малко в сравнение с доминиращите езици. Въпреки че абсолютният брой на представените езици нараства (например чрез добавяне на данни за редки езици), този растеж не води до по-равномерно разпределение на данните между езиците.
Доминиращата роля на северноамериканските и европейските източници на данни за обучение на ИИ със сигурност ще доведе до налагане на определени ценности, които са характерни за тези общества и чужди и непонятни за други. Не защото ИИ е лош. Просто така е обучен.
За написването на този пост е използвана следната техника: в платената версия на ChatGPT – десктоп създадох проект (това е нова функция, която пуснаха преди няколко дни): качих две статии на екипа на Data Provenance Initiative: Data Authenticity, Consent, & Provenance for AI are all broken: what will it take to fix them? (април, 2024) и Bridging the Data Provenance Gap Across Text, Speech, and Video (декември, 2024). И двете статии съм ги прочела и знам съдържанието им. Задавах конкретни въпроси и ми генерира текст, който включва информация само от тези две статии. Текста го редактирах.
Снимката е генерирана в същия проект – зададох да генерира снимка на базата на текста на тези две статии.
Статиите са публични, на сайта на инициативата: https://www.dataprovenance.org/
Интерактивната карта взех от Flourish и я пуснах в отделен линк. Планът ми в WordPress не позволява embed на код.
Текстът е прочетен и граматически редактиран от Илинка.
Вашият коментар