metaclass | Адъ CSV

А напишите кто-нибудь табличку состояний CSV парсера? Т.е. последовательность символов, разделенных запятыми, в строках, разделенных \r или \r\n разбить на список списков строк. Если в строке должны быть служебные символы (т.е. запятая или \r \n) - строка обрамляется в кавычки, если внутри такой строки нужна кавычка - ставится две кавычки подряд.
На самом деле там немного сложнее, типа допустимо незначимые пробелы возле запятых, а значимыми их делают тоже через кавычки, управляющие символы <32 вроде тоже обязательно в кавычки, но это пофиг.
Вроде блин простая задачка, а каждый раз когда ее приходится делать - получаются на пару страниц конечные автоматы.

Flat | Top-Level Comments Only

From:

zamotivator.livejournal.com

Твои предложения - чем парсить?
Как только ты сталкиваешься с ситуацией "быстро парсить поток байт" что льётся без остановки, спасают только автоматы (и то лишь в случае регулярных грамматик).
В остальных случаях нужны уже синтаксические анализаторы.

Рукописный лесосипед может требоваться в силу специфичности требований - таких как окружающий шум.

У меня при генерации мультиметодов нужно парсить содержимое комментариев. Но тут прикол в том, что парсеры эгоистичны - они парсят вход целиком.
Пришёл слабать автомат, что извлекает плюсовые комментарии из исходного кода.
Ничего сложного.

Автоматы простые как копейки, и умеют ээфективно парсить регулярные грамматики - в этом их сила.
Хоть, конечно, есть ньюансы применения, и конкретных реализацией автоматов чуть более, чем дохуя.

Но кодировать вручную иногда проще, чем искать хуй-пойми что.

vp.livejournal.com

Я все понимаю, но конкретно CSV - это вообще-то транспортный формат, и я вот хоть ты тресни, но не верю, что может быть такая ситуация, когда мне кровь из носу нужны уже распаршенные подстроки не дожидаясь окончания строки. Если я не прав - приведи мне плз реальный пример, для чего такое может быть.

Простой пример - очень длинные поля, буферизация которых не выгодна.
Тогда состояния позволяют обрабатывать блок, сразу его пересылать дальше или писать на диск, и лишь затем аккумулировать следующий блок.
Или вообще построить конвейер из параллельного чтения данных по сети, обработке данных (парсингу) и записи блоков на диск.
Так что всё не так просто.

очень длинные поля, буферизация которых не выгодна.

Я ВЕРЮ!!!!!
Я прошу живой пример из жизни конкретно под CSV, плиз! Я мозгом скриплю - банально не могу представить где такое может произойти. Ну можалуйсто! :)
Про бинарные и т.п. потоковые протоколы - без вопросов.

Представь, что между двумя запятыми 10 мегабайт.
И это ещё нормально, у нас вон в csv гигабайтные блобы экспортили из SyBase =)

А, ну вот в общем то ясно теперь, спасибо :) Паттерн сформировался :)

Ну, это лишь в твоём понимании "таблички из экселя", отдельные индивидумы таскают в нём гигабайты.
Кстати, это ничем и никем не запрещено - таскать толстые табличные данные в этом формате - универсально, просто, минимум накладных расходов (escaping запятой и перевода строки - мелочи).

S	M	T	W	T	F	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

IT-redneck

Адъ CSV

Адъ CSV

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

April 2017

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags