Feeds:
Публикации
Коментари

Archive for the ‘Технологии и ИИ’ Category

Какво е Generative Engine Optimization и защо вече не създаваме съдържание за Google, а за ChatGPT? Собствено проучване, за да съм в крак с най-новото и модерното.

В края на миналия век, а именно пролетта на 1999 г. започнах първата си сериозна работа. Бях студентка втори курс политология в СУ и предложението, което получих – 4 часов работен ден, когато ми е удобно, плюс достъп до компютър с интернет. А работата, Bulgaria Online (online.bg) и по-конкретно: да пълня съдържание което да се индексира и да се търси в него. Най-просто казано: копи-пействах информация в една оракълска база, предимно новини. По това време глобален лидер беше Yahoo, но и по-малко разпознаваемите AltaVIsta и Lycos.

Някъде по това време се появи и Google. Вероятно малко хора знаят, че създателите на Google предлагат технологията си на Yahoo за 1 милион долара и пичовете от Yahoo им се изсмиват и ги изпъждат. После всички знаем какво се случи.

Пак по това време за пръв път се използва и технологията за оптимизиране на резултатите на търсачките, по късно позната като Search Engine Optimization (SEO). Интересна е историята около навлизането на тази практика:

През 1997 година, рок групата Jefferson Starship забелязва, че официалният им уебсайт не се показва в резултатите на търсачките, когато фенове търсят името на групата. Свързват се с уеб експерт – според някои източници това е Боб Хейман (https://bobheyman.com/), който по-късно става един от пионерите в SEO индустрията. Причината за проблема се оказала тривиална по днешните стандарти: името „Jefferson Starship“ не се споменавало достатъчно често в текстовете на сайта, а по това време търсачките разчитали основно на съвпадения на ключови думи в съдържанието.

И така повече от 20 години SEO доминира онлайн маркетинга. А Google е category killer в търсенето.

Аз изобщо не се вълнувам от темата за маркетинга. Вълнувам се от тенденциите. От миналата година следя какво се случва при търсенето – а именно, че GPT чатботовете се използват от все повече хора вместо търсачките. Според изследване за 2024 г. за какво пълнолетните потребители използват GPTтата:

  • 68% – да научат повече по дадена тема
  • 62% – да открият конкретен факт
  • 32% – да открият конкретен сайт

Бързо, лесно и удобно чатботът ти изсипва информация, а напоследък някои въведоха и допълнителна функция, която подпомага клетия потребител съвсем да не влага мисъл, като ти предлага допълнително каква информация може да ти даде чрез примерни въпроси.

Та при чатботовете абсолютен лидер е ChatGPT. Трафика на Google падна драстично. Макар че се носят слухове, че ChatGTP всъщност “гугълва” вместо нас. От OpenAI не коментират.

Преди няколко дни в полезрението ми попадна термина GEO (Generative Engine Optimization) и реших да проверя това ли ще е SEO килъра.

GEO vs SEO: каква е разликата?

  • SEO цели даден уебсайт да се изкачи на върха в търсачките.
  • GEO цели създаденото съдържани в уебсайта да бъде избрано от ИИ-системата и генерирано като отговор през чатбота.
ХарактеристикаSEOGEO
ФокусПо-високо класиране в търсачкиИзбор като отговор от ИИ
ФорматТекст и линковеМултимодално съдържание: текст, картина, звук
Критерий за успехКлючови думи и оптимизацияКонтекст, яснота и разговорен тон

Освен това ИИ системите се обучават върху огромен обем данни, които не изискват регистрация като напр. Wikipedia, Reddit, Youtube. Така че присъствието в тези мрежи ще има все по-голямо значение. Големите социални мрежи като Facebook, Instagram, TikTok, LinkedIn и Х категорично забраняват да се използва информация на потребителите им за обучение на ИИ модели. Но пък от компаниите – собственици не коментират дали използват тези данни за обучение на собствените си ИИ модели. Вероятно да.

От всичко, което прочетох се опитах да обобщя как се прави „правилен” GEO:

  • Вместо кратки, трябва да се използват дълги текстове, които често са под формата на въпрос (напр. вместо „слънцезащитен крем” „кой е най-ефективния крем за лице за слънцезащита?” – и отговорът съдържа информация за конкретен крем)
  • Текстът трябва да е написан така, както потребителите питат – разговорно.
  • Хубаво е да има колкото се може повече снимков и видеоматериал (като кратки рийлове), които разбера се са коректно alt-нати.
  • Да има колкото се може повече текст, който редовно да се обновява.

В крайна сметка целта е чатбота да „изплюе“ пасаж от вашето съдържание. Големият въпрос, на който не намерих отговор е: когато все по-голяма част от маркетинговите послания се генерират от ИИ, в един момент ИИ ще ни връща това, което сам е създал. Доста опасно ми се струва.

И още нещо – заражда се нова професия: ИИ бранд анализатор (или как ИИ системите “виждат” конкретен бранд).

За написването на този материал са използвани данни от Statista и материали от Forbes, New York Times (които ми дойдоха от абонамента ми за бюлетините им) и 15 източника, които ми даде Perplexity (www.perplexity.ai) на въпрос: What is GEO (Generative Engine Optimization)? (т.е. и аз съм от тези 68%, които използват чатбот за да научат повече по дадена тема).

Лично аз ако ще използвам GPT чатбот като търсачка, предпочитам Perplexity. Най-добре ми структурира информацията и източниците, които са използвани за да се генерира отговора. Обикновено ако е нещо важно го проверявам и с ChatGPT.

Мисля, че текстът ми се получи като да го изплюе ИИ на някой друг търсещ по темата. Вие как мислите?

Read Full Post »

Това е първата ни публикация с колегите от Стопански факултет по горещата тема: учащи-изкуствен интелект. Проучването е реализирано през април, 2025 г.

Първите данни бяха представени на международната конференция “Empowering Education for a Sustainable Tomorrow: Innovations, Inclusion and Impact”, организирана от няколко европейски университета и ко-финансирана от ЕС.

Статията е публикувана в списание Innovations 2025 – съдържащо докладите на XI International scientific congress “Innovations 2025”, проведен 23-26 юни, 2025 г.

  • В обхвата на изследването попадат студенти само от бакалавърските програми;
  • Всички студенти използват инструменти на генертивен изкуствен интелект, около половината – ежедневно.
  • Повечето студенти използват инструментите за образователни нужди: за обясняване на сложни концепции, за помощ при проучвания и за обсъждане на идеи (трите най-популярни);
  • Почти 100% от респондентите определят инструментите като ефективни;
  • Най-често притесненията са свързани с акуратността на информацията, една трета посочват етичните аспекти на използването им.
  • И при нашето изследване се откроява световна тенденция генИИ да заменя традиционните търсачки;
  • Повече от половината смятат, че кариерата им ще бъде повлияна положително от новите технологии;
  • ChatGPT е абсолютен доминант, следван от Copilot. И BgGPT заема подобаващо място (студентите имаха възможност да посочат повече от един инструмент)
  • И макар, че почти ежедневно използват инструменти на генеративен ИИ за образователни цели, едва една трета от студентите са преминали някакво формално обучение. Останалите са самоуки.

Всички детайли са в статията. През следващата академична година се надявам да ни стигнат силите да разширим обхвата на изследването, както и да обследваме друга много важна тема: как ИИ влияе на ….. (очаквайте подробности).

Read Full Post »

Изложението CES (Consumer Electronic Show) В Лас Вегас приключи, а аз следях с интерес големите новини. Мини мощни компютри, гъвкави екрани, умни електроуреди – направо ми се взе акъла. Но и много щури изобретения с неясно приложение. Абе има ли ИИ, значи е супер яко! Ето още 5 щуротии.

Ходеща лампа? Не….универсален автономен ИИ робот

За този продукт ми беше най-трудно да намеря информация. Причината вероятно е, че всъщност не може да се разбере какво точно е. Прилича на нощна лампа, но ходи напред-назад, изглежда като паяк, някакво технологично фрийк чудо…..

Mi-Mo е проектиран да изглежда като мебел – малка масичка с настолна лампа, монтирана на шест метални крака с дървени елементи. Той може да се движи автономно, използвайки визуални, аудио и двигателни сигнали, което му позволява да взаимодейства с околната среда по начин, наподобяващ живо същество. Използва множество ИИ модели, които му дават способността да действа и да се адаптира самостоятелно, спрямо различни сигнали, които му се подават (гласови команди, жестове, визуални елементи). Т.напр. да маха с „ръка“ (т.е. с единия от шестте си крака) в отговор на поздрав. Според компанията-производител Jizai Inc. (Япония) Mi-Mo ще има безброй приложения в личния и професионалния живот: от предоставяне на емоционална подкрепа, през интерактивна играчка, та до конферансие….Очаквна цена на базовия модел: 3500 долара.

Аниме в буркан?

Ммммм не. Character Livehouse е интелигентна тонколонка, която комбинира ИИ с интерактивни виртуални персонажи. Дизайнът е вдъхновен от научната фантастика – инкубационни капсули (нещо като капсулата на Нео от Матрицата), покрит е с извит сензорен стъклен панел. В горната част са разположени сензори за движение и микрофони, които засичат движенията и гласовите команди на потребителя. Могат да се избират различни герои от вградената библиотека, да се добавят нови или дори да създават собствени модели. Устройството поддържа и интеграция с външни ИИ модели, което позволява персонализиране на личността и гласа на героите. Какво може да прави? Ами каквото правят повечето виртуални асистенти: да отговаря на гласови команди, да ви разкаже приказка преди да си легнете, да ви пусне музика….докато виртуалното изображение в капсулата танцува в ритъма на любимото ви парче. Яко, нали? Очаква се цената да е 500 долара за джаджата и 20 долара абонамент за ИИ.

Клавиатура и тъч пад в едно, с компютърно зрение

AutoKeybo е може би най-безсмисленият продукт от гледна точка на иновациите, с които ни заливат последните месеци. Това е клавиатура, която има вградена камера, за да наблюдава и разпознава движенията на потребителя и автоматично да сменя клавиши и тъчпад. Т.е. да разпознава кога ни трябват клавиши и кога само тъчпад. Използва ИИ computer vision (компютърно зрение). Голямото предимство, както представят от компанията-производител, е увеличаването на продуктивността…УОУ! Личното ми мнение е, че до няколко години изобщо няма да ползваме клавиатури, а ще даваме гласови команди. Ето това е продуктивност. Все пак милиарди долари са инвестирани в генеративните модели на ИИ. Цена: 700 долара.

Кухненски уред за готвене от ново ИИ поколение

Dreo ChefMaker 2 е нещо средно между еърфраер, мултикукър и фритюрник. Най-голямото му предимство е, че може да сготви всяка манджа, като използва ИИ, за да преизчисли времето и температурата за приготвяне. Чрез приложението му давате рецептата с указания за приготвяне. Напр. искате да направите на баба си баницата. Описвате съставките на рецептата и при колко градуса и на каква температура се приготвя (180 градуса в предварително загрята фурна за 25 минути). И приложението преизчислява колко време ще му трябва на уреда, за да ви опече баничка. Или блат за торта, или кренвирш с кашкавал. Очаква се да бъде пуснат на пазара през август 2025 при цена от около 400 долара.

Аз лично това лято се предадох и си купих еърфраер. Даже два – един за Търново и един за София. Не мога да се начудя как съм живяла без него.

Повече за компанията и продуктите им: https://www.dreo.com/

Тостер зареждачка за телефон без ИИ

Откак разбрах, че в родината ни имало поне 30 000 баламурници, които са инвестирали в BETL обръщам особено внимание на иновативните решения за зареждане на телефони. В предишния ми пост представих соларната шапка, а днес нещо съвсем ново и уникално: цяла система за ….подмяна на изхабената ви батерия с напълно заредена. Swippitt системата се състои от 3 компонента:

  • Хъб – или зарядна станция, която управлява, зарежда и сменя до пет допълнителни батерии. Цена 450 долара с включени 5 батерии.
  • Калъф – трябва ви специален калъф, в който се съхранява батерията. Имат за повечето популярни модели телефони. Цена – 120 долара за парче
  • Приложение – безплатно!

Какво на практика се случва с тази иновативна зарядна система, която наподобява модерен тостер? Слагате телефона (който е със специалния калъф за 120 дорала) с изхабената батерия, все едно пъхате филийка в тостера. За две секунди изхабената ви батерия е подменена с напълно заредена и телефонът ви “изскача“ от зареждащата станция. Напълно готов за ползване. Вярвам, че и за тази иновация ще се намерят хиляди баламурници.

На СЕS показаха и яке – соларна станция, но концепцията е като на шапката. Изобщо проблемът с падналата батерия на телефона се оказва сериозен генератор на иновативни решения. Аз лично много, много рядко съм имала проблем с паднала батерия. Но редакторката ми….постоянно. „Айде по-бързо, че имам 3% батерия“……

За този пост е използван ИИ за съмъризиране на информация по предварително дадени източници, които съм изчела или изгледала. Основно The Verge и TechCrunch.

Снимката е генерирана със следният промпт: Сега ми генерирай снимка за всичко, за което си говорихме.

Използвала съм функцията Projects в ChatGPT.

Редактор – Илина и едно нейно приятелче. Доста се посмяха!

Read Full Post »

CES (Consumer Electronics Show) започна вчера в Лас Вегас. Направо благодат за всякакви щуротии, които тепърва ще се продават, за да направят ежедневието ни лесно, удобно и без много да му мислим. Ето моите 5 от първия ден.

Прахосмукачка на следващо AI-ниво

Roborock Saros Z70 на пръв поглед прилича на познатите ни робопрахосмукачки, които вече навлизат масово в ежедневието ни. Но само на пръв поглед. Усъвършенстваният почистващ домашен робот е снабден с роборъка (OmniGrip), която премества предмети, които пречат, събира по-голям боклук и също така може да ви прибере мръсните чорапи и гащи от пода и да ги прибере в кутия за пране. Доста удобно, предвид че чорапи, поне у нас, се въргалят къде ли не. Потребителят може да си дефинира до 50 обекта от домакинството и да научи робопрахосмукачката как да се отнася към тях – къде да ги премества или прибира. Или както е мотото на този продукт: не робот-чистач, а робот-помагач! Естествено задвижван от изкуствен интелект.

За сега няма обявена цена, но се очаква това ИИ-чудо на реда и чистотата да струва от порядъка на 2000 долара.

https://global.roborock.com/pages/roborock-saros-z70#section6

От телевизора, директно в кухнята.

Сигурно много от читателите ми докато гледат готварската част на някой сутрешен ТВ-блок са си казвали – ау, че интересна манджа, пък и лесна за правене. И почвате да връщате предаването, за да си запишете рецептата. Или още по „old fasion“ – стоите с тефтера и химикала и записвате (аз така правя). Е вече няма да се налага да си даваме този зор, но само ако имаме телевизор Samsung от 2025 година. Samsung Food е нова функция, която използва AI процесора на компанията, за да разпознава храната на екрана ви и да намира рецепта за нея. Ако пък използвате екосистемата на Samsung, срещу 7 долара месечен абонамент приложението може да направи връзка между устройствата ви и да ви създаде шопинг лист на продуктите, които са ви необходими. Е, няма да ви сготви яденето….за сега.

Повече информация: https://samsungfood.com/

Барбекю, управлявано от генеративен ИИ

Оставаме на тема ядене, защото „храната, прави борбата“, не ли?

BriskIt e компания, която произвежда интелигентни барбекюта (приемаме, че всички останали са неинтелигентни). Сега, не си представяйте някаква космическа технология, която пали огъня за барбекюто вместо вас. Не – първо, иновацията се отнася само за електрически/газови барбекюта. Те се свързват по Wi-Fi с  приложение (Brisk It VERA™ Generative Cooking A.I.) на телефона ви и от там насетне давате гласови инструкции. Така напр. може автоматично да регулира температурата, времето за приготвяне и други настройки на барбекюто въз основа на типа храна, която готвите и желаните резултати. Също така  може да ви напътства през целия процес на готвене, като предоставя инструкции стъпка по стъпка,  и съобразени с вашето ниво на умения. Но няма да ви обръща пържолите. За да се насладите на това уникално барбекю изживяване, първо трябва да си купите някой от продуктите на компанията. Цената варира от 700 до 1000 долара за различните модели. Приложението е безплатно.

Повече информация: https://briskitgrills.com/

Лъжица СЪС сол

Спомням си от детството приказка за солта. Една принцеса, която баща й я изгонил, защото нещо казала за солта. После солта свършила, тя се върнала….абе поуката беше, че без сол няма живот и любов! Това е в рязък дисонанс със съвременното разбиране, че трябва да се консумира възможно най-малко сол, даже въобще. И на това противоречие – „за“ или „против“ солта на манджата естествено има отговор, и Ооо! – без използването на ИИ.

Японската компания Kirin представя пластмасова eлектрическа лъжица за сол, проектирана да кара храната да има по-солен вкус, отколкото е в действителност, без да добавя допълнителна сол. Това позволява на хората да се наслаждават на вкуса на солта, като същевременно намаляват приема на натрий и свързаните с него здравословни рискове. Как работи: изпраща електрически импулс към езика ви, докато ядете. Този импулс усилва солените вкусове в храната, заблуждавайки вкусовите ви рецептори. Цената не е обявена. Предвид развитието на технологиите аз съм оптимист – скоро и лъжица СЪС захар!

Повече информация много много няма, но открих няколко видеа в youtube:

BELT ли? Ама моля ви се! Шапка за всеки.

EcoFlow Power Hat е шапка с широка периферия, която има вградени соларни панели в периферията си. Тези соларни панели улавят слънчевата енергия от всички ъгли, позволявайки ви да зареждате устройствата си, докато сте навън. Има USB-A и USB-C портове. Мощността е 12 вата. Колко е това? Със зарядно 12 вата моя iPhone 11 Pro Max се зарежда напълно за около два часа. Представете си го така: разхождате се из слънчевите територии на света, и изведнъж: ау – падна ми батерията на телефона. И понеже наоколо няма BETL батерии под наем, най-добре се подсигурете с една шапка-соларна министанция, само за 129 долара.

Ето, готово за поръчка: https://us.ecoflow.com/products/solar-power-hat

Зеленото и ИИ стават част от ежедневието ни без да се усетим!

За лампата с крака Mi-Mo ще пиша по-нататък. Все пак първият ден на CES отразявам само.

Този пост е написан с минималното използване на ИИ. Получих безплатен трайл на you.com (можеш да избираш от най-популярните езикови модели). Използвах Claude 3 Opus на Anthropic. Не съм впечатлена особено. Цял ден четох различни новинарски публикации от CES за “weird gadgets”, като се надявах да ми даде някакво читаво съмъри. Ами не. Остава ми още много да пробвам, 6 месеца ми е трайла.

Снимката е генерирана с DALL-E. Много прост промт (ама се уморих да чета и пиша почти цял ден и бързам да публикувам, за да хвана нощната смяна читатели):  CES 2025 Roborock Saros Z70 Samsung Food on TV Brisk It VERA™ Generative Cooking A.I. Kirin electric salt spoon EcoFlow Power Hat

Редактор: Илина

Read Full Post »

Надпреварата да се пуснат все по-мощни модели на ИИ е колосална. Всяка седмица някой от гигантите пуска нов модел, който бие всички останали. Освен големите: OpenAI, Microsoft, Google, Meta, X, Anthropic и Perplexity в Hugging face има публикувани над милион и двеста хиляди (1 226 845 по точно, но утре ще са повече) модела, които обхващат множество задачи, най-често обработка на естествен език и компютърно зрение. 1152 са на бълтарски език (след Нова година ще са повече – следете тук: https://huggingface.co/languages).

  • Обработка на естествен език (Natural Language Processing, NLP) е област от изкуствения интелект, която позволява на компютрите да разбират, анализират и генерират човешки език. Целта е машините да работят с текст и реч по начин, който е естествен за хората. Примери са: автоматичен превод между езици; генериране на текст (напр. писане на статии или отговори в чат); анализ на настроения (дали текстът е позитивен, негативен или неутрален); разпознаване на реч (превръщане на говор в текст) и обратно и много други.
  • Компютърно зрение (Computer Vision) е област от изкуствения интелект, която се занимава с разбирането и анализа на изображения и видеоклипове. Целта е машините да „виждат“ света около тях, подобно на начина, по който хората използват зрението си, за да разпознават обекти, сцени, движения и други характеристики в реалния свят. Примери са: разпознаване на лица; медицинска диагностика; автономни автомобили; идентификация на обекти и много други.

За да се захрани всеки един модел са необходими данни. И големият въпрос е от къде се взимат тези данни? Отговорът търси Инициативата за произход на данните (Data Provenance Initiative): изследователи в областта на изкуствения интелект, които работят за повишаване на прозрачността и отговорното използване на обучаващи набори от данни за AI модели. Те провеждат мащабни анализи на популярни текстови, речеви и видео набори от данни, проследявайки техния произход, създатели, лицензи и други метаданни. През 2024 година Инициативата публикува резултатите от две големи проучвания, които в голяма степен дават отговор на този, а и други любопитни въпроси. Те анализират близо 4000 набора от данни между 1990-2024 г., обхващащи 443 уникални задачи, извлечени от 798 оригинални източника и конструирани от 659 организации, обхващащи 67 държави, над 1 трилион токена текст и 1,9 милиона часа речево и видео съдържание.
* Токенът е малка част от текст, която моделите използват, за да разбират и обработват информация. Той може да е дума, част от дума или знак, като например „кола“, „не-“ или препинателен знак „?“. Езиковите модели разграждат текста на токени, за да могат да го анализират по-лесно. Една стандартна книга с около 100 000 думи (300 страници) има приблизително 500 000–750 000 токена; Wikipedia на английски има около 3 милиарда токена.

При тектовите набори от данни, приблизително 85% са от уеб. Или това са данни, „изсмукани“ от уеб страници като напр. Wikipedia, новинарски сайтове, лични сайтове и социалните медии. Големият въпрос е – как тези данни са добити, и нарушени ли са авторски права? По тази тема вече текат големи дела в САЩ, по някои се постигна споразумение. Освен това социалните медии са две: на Мета и на Илон Мъск. Това дава много силно конкурентно предимство именно на тези две компании. 5% от текстовите данни са от книги, правителствени документи, научни трудове. 10% са синтетични данни* през 2024 г. Четири години по-рано са били едва 0.1% от всички данни.
* Синтетични данни са изкуствено генерирани данни, които обикновено се използват за обучение на модели на изкуствен интелект. Те могат да бъдат генерирани чрез различни техники, като симулации, алгоритми за машинно обучение или други автоматизирани процеси, вместо да бъдат събирани от реални източници, като например уеб сайтове, бази данни или физически наблюдения.

Какво означава това? Синтетичните данни могат да се генерират в големи количества и да се нагласят според нуждите на задачата. Те не съдържат реални лични данни, което ги прави по-сигурни за използване. Освен това могат да се използват, когато има липса на реални данни за определени ситуации или явления. Също така могат да бъдат използвани за симулации на редки събития, които е трудно да се наблюдават в реалността. НО! Могат да не са достатъчно реалистични и да не показват пълната картина на наблюдаваните процеси или явления, както и да не могат да уловят малки, но съществени детайли. От друга страна ако моделът, който ги генерира, не е добре направен, синтетичните данни могат да съдържат грешки и изцяло да изкривят резултата. Един хубав пример свързан с личните ни финанси, и с който аз наскоро се сблъсках и в последствие проучих защо така ми се случи: имам кредитна карта, която рядко използвам. Наложи ми се да платя голяма сума с нея, и картата ми биде блокирана. Синтетично генерираният сценарий: рядко използвана кредитна карта за малки суми – еднократно голямо плащане – вероятно е злоупотреба и картата автоматично се блокира. Дни ми отне да я разблокирам….големи главоболия….

И сега нека се върнем горе – на сайтовете. Макар да няма данни каква част от текстовете в интернет се генерират от ИИ, предполага се че нарастват значително. Т.е. в някакъв момент моделите ще се обучават на набори от данни, които са изкуствено генерирани…И да – няма достоверен 100% механизъм да се провери дали даден текст е написан от ИИ, или от човек. Каквото и да ви говорят.

При видео наборите от данни YouTube представлява около 71% от данните, използвани за обучение на AI модели. 15% са синтетичните данни. (т.напр. VidProm, създаден през 2024 г., включва приблизително 7 милиона синтетично генерирани видеоклипа). Под 5% са данните, генерирани от телевизионни предавания, филми и други, създадени от хора.

При речевите данни (класовите данни) положението е малко по-различно: приблизително 70% са генерирани от уеб и социални медии, като преобладава YouTube. 25% са генерирани от аудиокниги, подкасти, данни от колцентрове („вашето обаждане се записва“) и други, създадени от хора. 5% са синтетичните данни.

Ясно личи огромното предимство на Алфабет, собственик на YouTube. Достъпът до видео и гласови данни дава огромно предимство и не е ясно как те се използват от другите големи и малки играчи във все по-разрастващия се ИИ-бранш.

Но има и още интересни находки от изследователите от Инициативата за произход на данните: географското разпределение на данните.

ЛИНК КЪМ ИНТЕРАКТИВНА КАРТА (това е линк към интерактивна карта на света, показваща по държави колко набори от данни са попаднали в изследването)

Географското разпределение на данните за обучение на изкуствен интелект е силно изкривено към западните страни, въпреки увеличаването на количеството данни от различни региони и езици. Според анализ на почти 4000 публични набора данни между 1990 и 2024 година:

  • Северна Америка и Европа доминират в създаването на текстови, говорни и видео данни, представлявайки над 90% от текстовите токени и над 60% от часовете реч и видео съдържание. В същото време, Африка и Южна Америка са слабо представени, като техният принос е под 0.2% за всички разновидности (текст, реч и видео).
  • Въпреки увеличаването на броя на представените езици и държави в данните, индексът на Джини, използван за измерване на равномерността в разпределението, показва, че неравенството остава високо от 2013 година насам. Това означава, че новите данни не са достатъчни, за да компенсират доминацията на западните източници.
  • Броят на представените езици в текстовите и говорните данни е нараснал, но разпределението между тях остава концентрирано, като много от новите набори от данни все още са основно едноезични​.

Какво означава това?

Данните, използвани за обучение на изкуствен интелект, са доминирани от няколко широко разпространени езика (английски, испански, китайски), докато по-малко използваните или регионални езици остават слабо представени. Това създава дисбаланс, при който моделите са по-добре адаптирани към доминиращите езици. Много от новите набори от данни са създадени с фокус върху един език (напр. български). Това означава, че дори когато се добавят нови езици, данните за тях са сравнително малко в сравнение с доминиращите езици. Въпреки че абсолютният брой на представените езици нараства (например чрез добавяне на данни за редки езици), този растеж не води до по-равномерно разпределение на данните между езиците.

Доминиращата роля на северноамериканските и европейските източници на данни за обучение на ИИ със сигурност ще доведе до налагане на определени ценности, които са характерни за тези общества и чужди и непонятни за други. Не защото ИИ е лош. Просто така е обучен.

За написването на този пост е използвана следната техника: в платената версия на ChatGPT – десктоп създадох проект (това е нова функция, която пуснаха преди няколко дни): качих две статии на екипа на Data Provenance Initiative: Data Authenticity, Consent, & Provenance for AI are all broken: what will it take to fix them? (април, 2024) и Bridging the Data Provenance Gap Across Text, Speech, and Video (декември, 2024). И двете статии съм ги прочела и знам съдържанието им. Задавах конкретни въпроси и ми генерира текст, който включва информация само от тези две статии. Текста го редактирах.

Снимката е генерирана в същия проект – зададох да генерира снимка на базата на текста на тези две статии.

Статиите са публични, на сайта на инициативата: https://www.dataprovenance.org/

Интерактивната карта взех от Flourish и я пуснах в отделен линк. Планът ми в WordPress не позволява embed на код.

Текстът е прочетен и граматически редактиран от Илинка.

Read Full Post »

Older Posts »