Публикации по теме 'unicode'
ASCII и Юникод (UTF)
ASCII (Американский стандартный код обмена информацией).
Представление текста с помощью чисел. Первоначально он был разработан для телетайпов, по сути, для обычного текста без форматирования. ASCII - это 7-битный набор символов, содержащий 128 символов. Он включает заглавные и строчные буквы A – Z, числа и специальные символы (разрыв строки, возврат каретки, escape и т. Д.).
N.B. Разрывы строк
CR и LF - управляющие символы ASCII. CR - это байт-код для возврата каретки (со времен..
Атаки НЛП, часть 1 — «Почему не стоит доверять своим моделям классификации текста»
Эта серия сообщений в блоге посвящена обширной и важной области, объединяющей искусственный интеллект и лингвистику: Атаки НЛП .
NLP расшифровывается как Обработка естественного языка , подобласть науки о данных, целью которой является изучение и анализ механизмов, лежащих в основе представления и использования человеческого языка с помощью компьютеров и встроенных системы.
Тематическое исследование
Представьте, что вы специалист по данным, работающий в команде модерации..
Используйте normalize() для дуэли с неанглоязычной строкой в javascript
Для международного веб-сайта нам может потребоваться обработка разных языков, в некоторых случаях пользователю может потребоваться вводить данные на своем языке, мы не можем контролировать то, что они печатают, они могут злонамеренно или случайно ввести что-то, чего мы не ожидаем.
Один известный пример:
const name1 = '\u0041\u006d\u00e9\u006c\u0069\u0065';
const name2 = '\u0041\u006d\u0065\u0301\u006c\u0069\u0065';
console.log(`${name1}, ${name2}`);
// expected output: "Amélie,..
Вопросы по теме 'unicode'
Регулярное выражение и юникод
У меня есть скрипт, который анализирует имена файлов телевизионных эпизодов (например, show.name.s01e02.avi), берет название эпизода (из API www.thetvdb.com) и автоматически переименовывает его во что-то более приятное (Show Name - [01x02 ].avi)...
17.05.2024
Загружать карту символов Юникода, когда пользователь выбирает язык
Я знаю, что этот вопрос немного расплывчатый и не уверен, что это вообще возможно. На моем веб-сайте я хочу отобразить поле со списком с максимально возможными языками (доступными в Unicode), и когда пользователь выбирает язык, должна быть загружена...
22.04.2024
Вызов синтаксического анализа канала из веб-автоматического декодирования Punycode для IDN в .NET
У меня есть RSS-канал http://xn--d1abbgf6aiiy.xn--p1ai/feeds Когда я добавляю этот канал через приложение Web ASP.Net MVC и вызываю метод для анализа канала, свойства канала автоматически преобразуются из представления ASCII в Unicode в свойствах....
20.04.2024
Python UnicodeDecodeError: ascii против utf-8
Почему следующий код по-прежнему использует «ascii» для декодирования строки. Разве я не сказал python использовать «utf-8» для декодирования строки? Кроме того, почему ignore не сработало?
print data.encode('utf-8', 'ignore')...
02.04.2024
Как поддерживать расширенные символы curses с помощью PuTTY
Я создаю программу curses, которая должна использовать специальные символы прямоугольника ( │ , ─ , ┌ и т. д.), которые можно найти здесь . Я подключаюсь к серверу Linux, где я программирую с помощью PuTTY. Когда я просто устанавливаю границу...
01.06.2024
Python кодирует юникод utf-8
Я использую селен для вставки ввода текста с немецкими умлаутами в веб-формуле. Заявленная кодировка для скрипта python — utf-8. На странице используется кодировка utf-8. Когда я определяю такую строку, все работает нормально:
q = u"Hällö"...
08.03.2024
Поиск символов с наложением длинного штриха Unicode, примененным в excel
Я импортировал файл из текста в Excel, в котором есть несколько значений, вычеркнутых с использованием наложения юникода с длинным штрихом. Мне нужно найти и заменить их все на ноль. Какую функцию я могу использовать, чтобы найти эти символы?
08.05.2024
Как изменить Sys.setlocale, когда вы получаете запрос об ошибке для установки локали … не может быть выполнено
Это относится к проблеме, которую я пытаюсь решить здесь: Печать символов UTF-8 (русский) в R, Rmd, Knitr .
Мне сказали, что этой проблемы не существует, если родная локаль en_US.UTF-8 . (Мой текущий родной язык — English_Canada.1252 .)
Но я...
21.05.2024
Почему переменная счетчика неожиданно увеличивается при каждом вызове подпрограммы?
[ОТ РЕДАКЦИИ: я прочитал этот вопрос , но ( в то время как в ретроспективе это в конечном счете связано таким же образом, как и каждый вопрос здесь, например, «Почему компьютеры работают со сбоями?»), этот ответ не является ответом на мой вопрос....
25.05.2024
Какие веб-безопасные арабские шрифты будут работать во всех старых и новых браузерах?
Я ищу список веб-безопасных шрифтов для арабского языка, но они должны работать во всех браузерах, включая старые браузеры и IE. Я знаю, что со мной справится Arial, но есть ли другие шрифты?
Спасибо
06.06.2024
Проверьте, содержит ли строка Java символ Юникода
Я пытаюсь проверить, содержит ли строка определенную точку юникода из шрифта Segoe MDL2 Assets.
Пример значения Unicode, которое я хочу проверить, это
\uF14B
Вот откуда я беру свои значения...
21.04.2024
Стандартная библиотека C++ и строки Unicode
Почему стандарт C++ предписывает поддержку wstring в библиотеке ввода-вывода и библиотеке регулярных выражений, но не требует поддержки u8string , u16string и u32string в этих библиотеках?
Я задал аналогичный вопрос восемь лет назад (...
03.06.2024
Новые материалы
React on Rails
Основное приложение Reverb - это всеми любимый монолит Rails. Он отлично обслуживает наш API и уровень просмотра трафика. По мере роста мы добавляли больше интерактивных элементов..
Что такое гибкие методологии разработки программного обеспечения
Что представляют собой гибкие методологии разработки программного обеспечения в 2023 году
Agile-методологии разработки программного обеспечения заключаются в следующем:
И. Введение
A...
Ториго — революция в игре Го
Наш следующий вызов против ИИ и для ИИ. Сможет ли он победить людей в обновленной игре Го?
Обратите внимание, что в следующей статье AI означает искусственный интеллект, а Goban —..
Простое развертывание моделей с помощью Mlflow — Упаковка классификатора обзоров продуктов NLP от HuggingFace
Как сохранить свои модели машинного обучения в формате с открытым исходным кодом с помощью MLFlow, чтобы позже получить возможность легкого развертывания. Сегодня модели упаковки имеют несколько..
Математика и интуиция - Часть 1
У каждой математической формулы есть доказательство. Часто эти доказательства слишком сложно понять, поскольку многие из них основаны на индукции, некоторые - на очень сложных наблюдениях, а..
Раскрытие возможностей НЛП: часть речевой маркировки и ее проблемы
В сфере обработки естественного языка (NLP) маркировка частей речи (POS) выступает в качестве фундаментального метода, позволяющего компьютерам понимать и анализировать человеческий язык на..
Под поверхностью: раскрытие деталей системы с помощью инструментов Linux CLI
Чем больше вы изучаете Linux и продвигаетесь вперед, тем больше вам нужно проверять информацию о вашей системе. Эта информация может касаться аппаратного обеспечения, такого как процессор,..