Почти настоящие статьи на цепях Маркова

В прошлый раз мы научились забирать с любых страниц что угодно и сделали парсинг заголовков «Кода». Следующий шаг — генерировать новые статьи на основе старых.


  1. Берём файл с заголовками, который получили в прошлом проекте.
  2. Точно так же получаем файл с текстом всех статей Кода.
  3. Берём оптимизированный генератор на цепях Маркова из пяти строк.
  4. Отдаём файлы в генератор.
  5. Получаем сколько угодно новых статей.

Парсим текст из прошлых статей

Чтобы спарсить со страницы не только заголовки, но и содержимое статьи, нам нужно немного изменить файл из предыдущего проекта.

# подключаем urlopen из модуля urllib
from urllib.request import urlopen

# подключаем библиотеку BeautifulSout
from bs4 import BeautifulSoup

url = [
"https://thecode.media/vpn/ ",

# открываем текстовый файл, куда будем добавлять заголовки
file = open("zag.txt", "a")

# перебираем все адреса из списка
for x in url:
    # получаем исходный код очередной страницы из списка
    html_code = str(urlopen(x).read(),'utf-8')
    # отправляем исходный код страницы на обработку в библиотеку
    soup = BeautifulSoup(html_code, "html.parser")

    # находим название страницы с помощью метода find()
    s = soup.find('title').text

    # выводим его на экран

    # сохраняем заголовок в файле и переносим курсор на новую строку
    file.write(s + '. ')

# закрываем файл

Нас интересует часть, которая идёт сразу после объявления массива с адресами. С ней и будем работать дальше, чтобы не тащить за собой весь огромный код:

# открываем текстовый файл, куда будем добавлять заголовки
file = open("zag.txt", "a")

# перебираем все адреса из списка
for x in url:
    # получаем исходный код очередной страницы из списка
    html_code = str(urlopen(x).read(),'utf-8')
    # отправляем исходный код страницы на обработку в библиотеку
    soup = BeautifulSoup(html_code, "html.parser")

    # находим название страницы с помощью метода find()
    s = soup.find('title').text

    # выводим его на экран

    # сохраняем заголовок в файле и переносим курсор на новую строку
    file.write(s + '. ')

# закрываем файл

Добавим сюда такую логику:

  1. Создадим отдельный файл для текста.
  2. С помощью встроенной команды найдём все абзацы.
  3. Переберём по очереди эти абзацы, достанем оттуда текст.
  4. Каждый абзац будем добавлять в файл, а для наглядности выведем его ещё и на экран.

Вот код, который получится в результате:

# открываем файл, куда будем добавлять заголовки
file_zag = open("zag.txt", "a")
# открываем файл, куда будем добавлять заголовки
file_text = open('text.txt','a')

# перебираем все адреса из списка
for x in url:
    # получаем исходный код очередной страницы из списка
    html_code = str(urlopen(x).read(),'utf-8')
    # отправляем исходный код страницы на обработку в библиотеку
    soup = BeautifulSoup(html_code, "html.parser")

    # находим название страницы с помощью метода find()
    s = soup.find('title').text

    # сохраняем заголовок в файле и переносим курсор на новую строку
    # специально ставим точку, чтобы алгоритм знал, где кончается заголовок
    file_zag.write(s + '. ')

    # находим все абзацы с текстом
    content = soup.find_all('p')
    # перебираем все найденные абзацы
    for item in content:
        # сохраняем каждый абзац в другой файл
        file_text.write(item.text + ' ')
        # и выводим содержимое каждого из них

# закрываем файлы

Но после запуска мы в консоли видим, что почти все слова написаны с пробелами. Скорее всего, пробелы — это коряво обработанные скрытые знаки переноса. Они ставятся в статьи автоматически с помощью специального обработчика нашего WordPress. Когда вы читаете обычную статью, вы этих знаков не видите, но если слово подходит к концу строки и не вмещается, то может сработать перенос. Для нас это незаметно — ведь мы привыкли читать текст с переносами. А для нашего парсера каждый такой скрытый перенос — это пробел:

Исправляем баг с переносами

Во всём виновата байтовая последовательность \xc2\xad — именно это колдунство отвечает в кодировке UTF-8 за «мягкий перенос». Можно сказать, что таким образом обозначается знак мягкого переноса. Мы не видим его при чтении текста и даже при копировании и вставке текста в браузере. Но при парсинге наш Python думает, что это пробел. 

Задача — при парсинге заменить последовательность \xc2\xad на ничто, то есть на пустоту.

Сделаем это так:

# получаем исходный код страницы в виде байт-строки
html_code = urlopen(x).read()

# удаляем лишние пробелы внутри слов
html_code = html_code.replace(b'\xc2\xad',b'')

# переводим в нужную кодировку
html_code = str(html_code,'utf-8')

# отправляем исходный код страницы на обработку в библиотеку
soup = BeautifulSoup(html_code, "html.parser")

А теперь соберём всё вместе, добавим парсинг списков и посмотрим на результат:

# открываем файл, куда будем добавлять заголовки
file_zag = open("zag.txt", "a")
# открываем файл, куда будем добавлять заголовки
file_text = open('text.txt','a')

# перебираем все адреса из списка
for x in url:
    # получаем исходный код страницы в виде байт-строки
    html_code = urlopen(x).read()

    # удаляем лишние пробелы внутри слов
    html_code = html_code.replace(b'\xc2\xad',b'')

    # переводим в нужную кодировку
    html_code = str(html_code,'utf-8')

    # отправляем исходный код страницы на обработку в библиотеку
    soup = BeautifulSoup(html_code, "html.parser")

    # находим название страницы с помощью метода find()
    s = soup.find('title').text


    # сохраняем заголовок в файле и переносим курсор на новую строку
    # специально ставим точку, чтобы алгоритм знал, где кончается заголовок
    file_zag.write(s + '. ')

    # находим все абзацы с текстом
    content = soup.find_all('p')
    # перебираем все найденные абзацы
    for item in content:
        # сохраняем каждый абзац в другой файл
        file_text.write(item.text + ' ')
        # и выводим содержимое каждого из них
     # делаем то же самое со списками
     content = soup.find_all('li')
        for item in content:
            file_text.write(item.text + ' ')

# закрываем файлы
Теперь всё в порядке и без лишних пробелов.

Генерируем статью с заголовком

👉 Сделаем всё в лучших традициях программирования: используем код из генератора рассказов Чехова, чтобы не писать ничего с нуля. Так проще и быстрее. 

Нам нужно добавить в проект с чеховским генератором всего две вещи: скопировать файл с заголовками в папку с программой-генератором и поправить название файла в тексте самой программы. Сделаем это за пару секунд, сохраним как новый проект и получим готовый код.

# подключаем библиотеку
import markovify

# отправляем в переменные содержимое файлов
file_zag = open('zag.txt', encoding='utf8').read()
file_text = open('text.txt', encoding='utf8').read()

# сразу обрабатываем весь текст для заголовков одной командой
text_model_zag = markovify.Text(file_zag)
# то же самое делаем с текстом статей
text_model_text = markovify.Text(file_text)

# выводим пустую строку, чтобы отделить результаты от служебного вывода

# выводим новый заголовок

# выводим пустую строку, чтобы отделить заголовок от текста

# выводим статью из 30 предожений
for i in range(30):
    # чтобы предложение точно получилось, даём алгоритму на это 100 попыток
Статья, которую написал для нас этот алгоритм:

🤖 Markdown: что это и зачем он нужен.

Torrent-файл выкладывается на форум или в тело — игра закончится. Если это значение действительно понадобится в другом его почти не берут. С дизайн-системой процесс упрощается: дизайнер рисует новую кнопку → отправляет разработчику и добавляет к ним прикрутим.

⚠️ Но это были мои первые деньги.

Все кидают строго по этим номерам. Какие-то собираются в RAID-массив и после формальной части получил приглашение. 

  • Настроим сервер, чтобы он стал проще и понятнее.
  • Подставляем это число к имени.

для установки всего серверного инструментария, например PHP, Apache и MySQL; для работы вам будут говорить, что «не хватает памяти», вы будете в статистике как человек, не попадающий в средние значения. Программа за этим следит.

Более двадцати лет Пик Балмера становится единственным состоянием, в котором снова появился ток и подписывает его как №2.

Репозиторий — это разный андроид с технической точки зрения арифметики материал не сложный. Костыльная реализация данных: сейчас блоки с текстом в гуглодоке с помощью jQuery. Для этого добавим такой код в редакторе Visual Studio Code.

Кто из них отмечено.

Такого не существует хотя бы одна единица данных, а три? Сейчас нам нужен самый короткий маршрут посещения всех городов ровно по центру, а его рамки сделаем белыми: Всё остальное сделаем по аналогии. Запрос в интернет идёт по этим правилам, и на единицу.

Цвет волос нам не помогает, потому что он под завязку загружает ваш процессор, из-за чего снижается его срок службы, а сам сервис состоит из сервера, на котором работает наш сайт. 8 килобайт на графику, 32 килобайта на сам сканер, а на еду и развлечения он тратит ровно половину от всего этого защититься.

Классический способ объяснения принципов стека звучит так: представьте, что вы пришли в интернет, получая данные по запросу — чтобы было удобнее ориентироваться, когда проектов будет много. Прочитайте, например, нашу статью про составление резюме.

Почему вы ищете для матрицы.

Смотрим на произведение 8 × 9 = 13 4 + 7 = 13 Остальные комбинации получаются из их комбинаций, поэтому нам достаточно понять, как это работает. Что если у вас получился файл нужного формата. С бомбой используем тот же аккаунт — история продолжает записываться. Значит, третьесортные булочки тут не место, и останавливает программу. Возможно, оно у вас в памяти компьютера.

В итоге мы получаем полную адаптивность: каждый элемент хорошо выглядит на любом бесплатном почтовом сервисе.

Если на сайте developer.android.com.

# подключаем urlopen из модуля urllib
from urllib.request import urlopen

# подключаем библиотеку BeautifulSoup
from bs4 import BeautifulSoup

url = [
"https://thecode.media/vpn/ ",

# открываем файл, куда будем добавлять заголовки
file_zag = open("zag.txt", "a")
# открываем  файл, куда будем добавлять текст
file_text = open('text.txt','a')

# перебираем все адреса из списка
for x in url:
    # получаем исходный код страницы в виде байт-строки
    html_code = urlopen(x).read()

    # удаляем лишние пробелы внутри слов
    html_code = html_code.replace(b'\xc2\xad',b'')

    # переводим в нужную кодировку
    html_code = str(html_code,'utf-8')

    # отправляем исходный код страницы на обработку в библиотеку
    soup = BeautifulSoup(html_code, "html.parser")

    # находим название страницы с помощью метода find()
    s = soup.find('title').text


    # сохраняем заголовок в файле и переносим курсор на новую строку
    # специально ставим точку, чтобы алгоритм знал, где кончается заголовок
    file_zag.write(s + '. ')

    # находим все абзацы с текстом
    content = soup.find_all('p')
    # перебираем все найденные абзацы
    for item in content:
        # сохраняем каждый абзац в другой файл
        file_text.write(item.text + ' ')
        # и выводим содержимое каждого из них

    # делаем то же самое со списками
    content = soup.find_all('li')
    for item in content:
        file_text.write(item.text + ' ')

# закрываем файлы

# подключаем библиотеку
import markovify

# отправляем в переменные содержимое файлов
file_zag = open('zag.txt', encoding='utf8').read()
file_text = open('text.txt', encoding='utf8').read()

# сразу обрабатываем весь текст для заголовков одной командой
text_model_zag = markovify.Text(file_zag)
# то же самое делаем с текстом статей
text_model_text = markovify.Text(file_text)

# выводим пустую строку, чтобы отделить результаты от служебного вывода

# выводим новый заголовок

# выводим пустую строку, чтобы отделить заголовок от текста

# выводим статью из 30 предожений
for i in range(30):
    # чтобы предложение точно получилось, даём алгоритму на это 100 попыток

Что дальше

А всё! Теперь статьи за нас пишет цепь Маркова, а мы отдыхаем.


Даня Берковский


Ирина Михеева


Никита Кучеров


Олег Вешкурцев

