Вы не вошли.
Я могу предложить третий способ. Очень простой. Обязательная маркировка любого ИИ-контента.
1. Упущенная выгода. Уже сейчас очень много статей из топа пишется нейронками или с помощью нейронок.
И они пишутся чтобы запихать сайт повыше в топ гугла.
Поставь на них маркировку "сгенерировано" и они опять упадут ниже.
2. Непонятно где проводить границу. Вот я на телефоне набираю предложение, и клавиатура мне подсказывает следующее слово.
Я согласился с подсказкой. Это уже сгенерированое нейронкой слово?
А если я попросил chatgpt пересказать мою мысль своими словами? А если попросил переписать одно предложение?
А если взял мысль из интернета?
А если потом вычитал текст?
3. Непроверяемо.
Мне кажется, это слишком сложно.
У каждой нейронки все равно есть свои ограничения.
Надо просто понимать, что если ты используешь нейронки, то её качество примерно равно качеству её датасета.
А гугл уже умирает давно и в конвульсиях.
Отличная вещь, для поиска на определённых сайтах, но с трудом ищет за их границами.
Кмк, не за горами возвращения старых добрых архивов ссылок по категориям, ранжированных самими пользователями.
Основная проблема текстовых нейронок — генерация спама, с которой трудно справиться автоматической модерацией.
Гугл думал, что может алгоритмически ранжировать какие сайты полезные, а какие нет.
Оказалось, что такое ранжирование не работает на таких больших объёмах данных.
Се ля ви, возвращаемся к ранжированию на основании репутации.
Отредактировано (2023-06-21 21:27:44)
Я согласился с подсказкой. Это уже сгенерированое нейронкой слово?
А если я попросил chatgpt пересказать мою мысль своими словами? А если попросил переписать одно предложение?
Нет, да и да.
Мне кажется, это слишком сложно.
Для картинок несложно. Для текста сложно, потому что метку будет легко устранить банальным "найти и заменить". А сложная многосоставная метка требует достаточно большого текста (и тоже может быть устранена редактированием, даже если редактор этого не планировал). Хотя если сделать что-то вроде "в начало каждого третьего слова добавляем букву А", то может сработать.
1. Упущенная выгода. Уже сейчас очень много статей из топа пишется нейронками или с помощью нейронок.
Да, поэтому пропихнуть такой закон будет очень сложно. Но если получится, то интернет станет чище.
Нет, да и да.
Плюсую сюда. Спросивший анон лукавит и какой-то казуистикой занимается.
Отредактировано (2023-06-21 23:20:12)
Хотя если сделать что-то вроде "в начало каждого третьего слова добавляем букву А",
И как это читать?
И как это читать?
Глазами. И с полным осознанием, что это сгенерированный набор слов, а не истина в последней инстанции (чего некоторым нынче не хватает).
Если серьёзно, то можно натренироваться. Как я читаю фики через гугл-переводчик. Или как ты читаешь холиварку, не отвлекаясь на многочисленные "@ Анон" и "Пожаловаться Ответить Цитировать".
Для картинок несложно. Для текста сложно, потому что метку будет легко устранить банальным "найти и заменить
Можно обязать нейросети вроде чат жпт давать ограниченный доступ к нагенеренному контенту, чтобы можно было ввести абзац текста и он отвечал, был ли такой текст сгенерирован и когда. Замену отдедьных слов тоже можно учесть, чтоб например процент совпадения показывал.
И большое снижение приоритета в поисковиках всему сайту, который попадется на том, что такой контент лежит на нем без маркировки.
Да, это не защитит от текста, который сначала сгенерирован, а потом переписан ручками, но это и не потребуется: нейросетевые статьи нужны чтобы экономить время, а необходимость рерайтить убъет всю выгоду.
Отредактировано (2023-06-22 00:45:00)
Можно обязать нейросети вроде чат жпт давать ограниченный доступ к нагенеренному контенту, чтобы можно было ввести абзац текста и он отвечал, был ли такой текст сгенерирован и когда. Замену отдедьных слов тоже можно учесть, чтоб например процент совпадения показывал.
И большое снижение приоритета в поисковиках всему сайту, который попадется на том, что такой контент лежит на нем без маркировки.
Слишком много данных хранить придется.
Анон пишет:Можно обязать нейросети вроде чат жпт давать ограниченный доступ к нагенеренному контенту, чтобы можно было ввести абзац текста и он отвечал, был ли такой текст сгенерирован и когда. Замену отдедьных слов тоже можно учесть, чтоб например процент совпадения показывал.
И большое снижение приоритета в поисковиках всему сайту, который попадется на том, что такой контент лежит на нем без маркировки.Слишком много данных хранить придется.
Они уже хранятся.
Можно обязать нейросети вроде чат жпт давать ограниченный доступ к нагенеренному контенту, чтобы можно было ввести абзац текста и он отвечал, был ли такой текст сгенерирован и когда.
Можно поднять свой инстанс для генерации. У бинга не свой доступ, а свой инстанс, например. Llama тоже уверенно генерирует текст, и встаёт на обычных компьютерах.
Спросивший анон лукавит и какой-то казуистикой занимается.
Я попробую принести больше примеров. Но на мой взгляд, нейросетки норм инструмент, если они применяются как инструмент.
Если помните историю чувака, которому "chatgpt написал диплом", то я считаю, что чувак сам написал диплом с помощью chatgpt. Вот тут можно прочитать что именно он делал сам, а в чем ему помог ГПТ.
По факту студент сам прошёл практику, выбрал тему, препод дополнил предложенный план до стандартов методички, чувак сам проверил источники и чувак сам переписал финальный результат и сам проверил правильность выводов.
После чего его работа имеет научную ценность. И написана нормально.
И у него получилось быстрее написать.
При этом большая часть работы объективно сгенерирована.
Я бы такие тексты, которые прошли фактчекинг, редактору и в принципе генерировались по заранее заданным человеком идеям, не стал бы ставить в один ряд со спамом/галлюцинациями сеток.
Но на мой взгляд, нейросетки норм инструмент, если они применяются как инструмент.
Если всем известно, что этот инструмент использовался, и цель соответствующая. Рерайтить им новости с проверкой - ок. Писать им диплом - не ок, диплом требуется не ради результата, а ради процесса.
Если всем известно, что этот инструмент использовался, и цель соответствующая. Рерайтить им новости с проверкой - ок. Писать им диплом - не ок, диплом требуется не ради результата, а ради процесса.
Я это писал в контексте обсуждения обучения нейронок на сгенерированных нейронками текстах, напомню.
Хотя я бы поспорил, что диплом нужен ради процесса, но этот спор не для этого треда.
обучения нейронок на сгенерированных нейронками текстах
Извини, вот этого я в твоих комментариях не вижу. Даже если я их неправильно нашел, в рамках этой страницы таких слов не было вообще.
В любом случае, это хуевый вариант. Результат нужен сравнимый с человеческим трудом, а не с соседней нейронкой. Генерация на основе своих же сгенерированных текстов, сам понимаешь, дает ускоряющуюся деградацию качества.
Даже если я их неправильно нашел, в рамках этой страницы таких слов не было вообще.
Да, потому что один анон (см.ниже) отцитировал с сайта, не указав источник цитаты :D
(источник вот: https://novayagazeta.eu/articles/2023/06/21/gpt-svalka)
Я сам минут 5 искал что именно он отцитировал, чтоб ему ответить)
Тот самый анон, которому я изначально ответил:
Первый способ <...>
Я могу предложить третий способ <...>
UPD: я понял, что не очень понятно сформулировал. Поэтому краткий пересказ:
По факту, тезис "обучение нейронок на сгенерированных нейронками текстах – это проблема" был в новой газете. И предлагалось несколько решений этой проблемы.
Анон-1 процитировал статью, и добавил свой способ решения проблемы.
Я ответил анону-1, сказав, что этот способ не очень, потому что плохо разграничивает тексты качественные, но написанные с помощью нейронок (дописанные и проверенные человеком), и тупой СЕО-синтез.
Вот полный контекст, ифчо.
Отредактировано (2023-06-22 15:17:03)
А, ну. Тут, как обычно, во весь рост встает человеческий фактор.
тексты качественные, но написанные с помощью нейронок (дописанные и проверенные человеком)
Вот тут процент качественного и сейчас-то низок, а по ходу дела станет еще ниже (почему - потому же, почему некачественные переводы востребованы, надо - найду ссылку с рассуждениями по поводу).
Вот тут процент качественного и сейчас-то низок, а по ходу дела станет еще ниже (почему - потому же, почему некачественные переводы востребованы, надо - найду ссылку с рассуждениями по поводу).
Тут я полностью соглашусь. Термин Enshittification был придуман еще до бума нейронок, а идея "засирания интернета" обсуждалась в русегменте еще в 2008).
От ссылки не откажусь, звучит интересно, и специфично про переводы я еще не читал ничего :D
От ссылки не откажусь
https://vk.com/public159996219
12 постов, снизу вверх.
https://vk.com/public159996219
12 постов, снизу вверх.
Спасибо. Но это точно та статья, на которую ты* ссылался в #789?
Потому что в статье названы 3 причины популярности некачественного перевода: книжный голод 90х (малоприменимый аргумент для современного интернета), неподготовленность литературного языка к переводам и то, что человек, читая перевод, читает его как самостоятельное произведение.
Не уверен, что эти тезисы распространяется на тексты от нейронок сейчас о_О
Или ты другой анон и просто на тему внес?
Не уверен, что эти тезисы распространяется на тексты от нейронок сейчас
Нет, там больше причин описано, хотя их можно назвать производными. В частности, для нейронок справедливы низкая планка качества (хотя на самом деле тяп-ляп, но быстро и дешево - это скорее новая ниша, которая пытается потеснить классические, но с переменным успехом), незнание, как на самом деле выглядит качественный текст и как он влияет на продажи, ну и маленькое число специалистов, которым согласны нормально платить.
Ещё один фотосток запускает АИ генерирование:
До этого шаттер запустил у себя собственный инструмент, которым клиенты могли за денюжку генерить себе иллюстрацию (а иллюстраторам заплатили за обучение шаттер ии... постфактум... мне аж 4 доллара перепало. Приэтом контрибьютарам ии генерации грузить зопрещено - но всё равно полно всяких скам портфелей, состоящих из ии генераций... видимо приёмкой занимаются уже не человеческие модеры, а роботы давно. Раньше было полно скам портфелей из ворованных иллюстраций и скринов из диснеевских м/ф, теперь это)
а иллюстраторам заплатили за обучение шаттер ии... постфактум... мне аж 4 доллара перепало
А у иллюстраторов разрешения не спрашивали, так понимаю,если постфактум? Но картинка, груженная в шаттер не становится же их собственностью, тогда как это прокатило вообще?
Но картинка, груженная в шаттер не становится же их собственностью, тогда как это прокатило вообще?
А хер знает, обычный контрибьютор с этим китом всё равно не потянет судиться, только в знак протеста снести портфель.
Новый материал от техногирревью:
Люди, которых нанимают тренировать нейронки атусорсят свою работу.... нейронкам
Прочитать на английском можно здесь
Статья об обучающих центрах типа Mechanical Turk (наш аналог: Яндекс.Толока), где люди за маленькие денежки руками правят датасеты.
В принципе, это настолько логично с точки зрения поведения нанимаемых, что лично я удивлена, что не предположила таких последствий.
Как чо думаете аноны? Нас ждет отказ от аутсорса на сторонних площадках или площадки попросят предоставлять доказательства "человечности" проверки? Можно ли вообще предоставить доказательства?
Или все, кроме самых больших компаний, хрен забьют и решат, что это достаточно норм?
Раньше было полно скам портфелей из ворованных иллюстраций и скринов из диснеевских м/ф, теперь это)
А у иллюстраторов разрешения не спрашивали, так понимаю,если постфактум?
А скам-портфели с ворованным диснеем может остались?
Было бы неплохо, если бы Дисней начал судиться, я бы с удовольствием понаблюдал бы за битвой 2х якодзун.
Там же миллионы изображений, когда на ннарушающие натыкаются/ репортят, вроде удаляют. Ну и в ToS стоков наверняка прописано, что за пизженный контент они не дураки нести ответственность, разбирайтесь мол с конкретным ушлым индийским контрибутором.
Еще читал на микросток.ру форуме истории, как чел находил сворованные у него арты/фото в скам потрфеле, писал жалобу, в поддержку и в итоге его же и банили (вместе с мошенником вроде но хз) "за подозрительный аккаунт". Тип им не интересно разбираться, контрибуторов и контента как грязи, стоят копейки, проще/экономнее/быстрее выпилить.
Отредактировано (2023-06-23 21:25:16)
Возвращаясь к вопросу о спаме нейросетками и шитификации интернета. Все статьи на английском.
Аноны, я честно не нейронка, я просто плохо пишу простыни.
Финансирование следующего поколения контент-ферм: некоторые из крупнейших мировых брендов непреднамеренно поддерживают распространение ненадежных новостных сайтов, созданных искусственным интеллектом
НьюсГард создал трекер сайтов с новостями и\или информативных, на которых весь контент генерируется и автоматически обновляется программами, почти без вмешательств человека.
Всего он нашел 217 сайтов, со средней производительностью в 1200 статей\день.
На таких сайтах зарабатывают с помощью т.н. программной рекламы (автоматизированного рекламного контента).
Они нашли рекламу ~140 крупных брендов, которые, скорее всего, не настроили нормально автоматизацию этой рекламы.
В статье это больше подано как "это аморально", etc, etc, и можно подумать, что новость не супер интересная.
Но на самом деле, помимо очевидных последствий (дальнейшее засирание поиска гугла), есть не самое очевидное.
Уменьшение конверсии рекламы на мелких сайтах приведет к тому, что гораздо больше компаний переведет рекламные компании на "белые списки". Т.е. все больше рекламодателей будут делать списки сайтов, на которых разрешено показывать рекламу. И мелкие сайты туда попадать не будут.
Поэтому скоро мы – возможно – придем к тому, что любой сайт на меньше чем десятки тысяч людей, сможет заработать только показывая рекламу условного казино три топора.
Для них останутся только рекламодатели, у которых настолько зашкварная реклама, что её просто запрещают показывать на крупных сайтах.
Кстати к вопросу о том как подтвердить, что что-то сгенерировано: в статье это определяли забавно. На многих статьях были стандартные ответы и ошибки нейронки, где она сама себя называла нейронкой :D
По ссылке есть подробнее о критериях.
Отредактировано (2023-06-26 19:17:11)