Русский > Разработчикам
HTMLToText и мнемоники
Reset:
2 nostra
Обнаружил, что скриптовая функция HTMLToText преобразует в текст не все мнемоники. Ниже список мнемоник, пропускаемых функцией.
¡ ¢ £ ¤ ¥ ¦ § ¨ © ª ¬ ­ ® ¯ ° ± ² ³ ´ µ ¶ · ¸ ¹ ¼ ½ ¾ ¿ À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß à á â ã å æ ç è é ê ì í î ï ð ñ ò ó ô õ ÷ ø ù ú û ý þ ÿ ƒ Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω α β γ δ ε ζ η θ ι κ λ μ ν ξ ο π ρ ς σ τ υ φ χ ψ ω &thetasy; ϒ ϖ • ′ ″ ‾ ⁄ ℘ ℑ ℜ ™ ℵ ← ↑ → ↓ ↔ ↵ ⇐ ⇑ ⇒ ⇓ ⇔ ∀ ∂ ∃ ∅ ∇ ∈ ∉ ∋ ∏ ∑ − ∗ √ ∝ ∞ ∠ ∧ ∨ ∩ ∪ ∫ ∴ ∼ ≅ ≈ ≠ ≡ ≤ ≥ ⊂ ⊃ ⊄ ⊆ ⊇ ⊕ ⊗ ⊥ ⋅ ⌈ ⌉ ⌊ ⌋ ⟨ ⟩ ◊ ♠ ♣ ♥ ♦ < > Œ œ Š š Ÿ ˆ ˜       ‌ ‍ ‎ ‏ – ‘ ’ ‚ “ ” „ † ‡ ‰ ‹ › €
Проверял на Script Engine v0.2.0.0 и v0.2.2.0 - результаты одинаковые.
Источник мнемоник - небезызвестная Википедия.
Чтобы тебя сильно не загружать, могу преобразовать эту кашу в нужный формат, в том числе в виде строк кода.
В дополнение к этому постоянно всплывающий в теме КиноПоиск.ru (фильмы) вопрос квадратиков. Обратил внимание, что некоторые коды не могу найти в Юникодных шрифтах. Оказалось, что символы с этими кодами стоят в других позициях. На скриншоте приведен результат поиска символа нижних кавычек (он в левом верхнем углу). В строке состояния видно, что он имеет код U+201E, а в HTML-коде он идет под номером 132. Но что интересно, на скриншоте в строке состояния справа видно, что для получения этого символа можно нажать Alt+0132, что соответствует HTML-коду.
Если бы с этой проблемой можно было разобраться, было бы шикарно :) А то я уже замучился с самопальной функцией Replace, которая начинает распространяться по всем скриптам, в т.ч. и KinoMania.ru, а по смыслу по большей части дублирует HTMLToText.
UPD
И ещё хотелось бы, чтобы замена производилась на соответствующий символ, а не на похожий.
Например, « заменяется на ", а нужно на «.
[вложение удалено Администратором]
nostra:
Хорошо, спасибо за информацию. Я этим займусь.
Reset:
--- Цитата: Reset от 09 Марта 2009, 10:05:33 ---И ещё хотелось бы, чтобы замена производилась на соответствующий символ, а не на похожий.
Например, « заменяется на ", а нужно на «.
--- Конец цитаты ---
--- Цитата: nostra от 09 Марта 2009, 10:28:33 ---Хорошо, спасибо за информацию. Я этим займусь.
--- Конец цитаты ---
Если займешься вопросом, который я процитировал, то необходимо учесть, что, как сказал Resha в теме КиноПоиск.ru (фильмы), название может быть на сайте с одними кавычками, а в связи на этот фильм - с другими. Т.е., наверное, в названиях и связях с ними необходимо заменять любые кавычи на простые ("). А для этого в функции HTMLToText напрашивается параметр simpleQuote.
Хотя, может быть, при создании связи привязываться не к точному названию фильма, а к названию без учета знаков препинания (при добавлении пользователем) или URL фильма (при добавлении из плагинов, вопрос поднимался в теме Группировка связей при их добавлении из скрипта). Тогда кавычки можно везде оставить как есть.
Можно даже сделать только проверку на URL, поскольку пользователь может CTRL-SHIFT-кликнуть.
nostra:
Я к следующей версии постараюсь всё сделать. Кавычки всегда из названий убираются.
Reset:
--- Цитата: nostra от 14 Марта 2009, 15:17:10 ---Кавычки всегда из названий убираются.
--- Конец цитаты ---
Как, убираются?
Первый скрин - стандартный плагин КиноПоиска.
Второй скрин - плагин IMDB.
[вложение удалено Администратором]
Навигация
Перейти к полной версии