Bitcoin Forum

Local => Кодеры => Topic started by: ronaldinio on May 28, 2018, 08:46:25 PM



Title: Парсинг форума
Post by: ronaldinio on May 28, 2018, 08:46:25 PM
Может у кого есть опыт парсинга подобно этому форуму,  ибо сам форум далеко не совершенен для отслеживания нужной информации. Какой язык программирования можете порекомендовать для этих целей? Понятно дело что практически любой язык может это делать, но делать это быстро и удобно не всякий.


Title: Re: Парсинг форума
Post by: rumkin on May 28, 2018, 09:41:45 PM
Удобнее всего nodejs с модулем puppetteer.


Title: Re: Парсинг форума
Post by: #Cryptoman on May 29, 2018, 05:02:12 AM
Какой язык программирования можете порекомендовать для этих целей? Понятно дело что практически любой язык может это делать, но делать это быстро и удобно не всякий.

Любой, какой вы знаете. Ну и изучение языка программирования занимает некоторое время (от нескольких месяцев, лет, вся жизнь), возможно проще заказать парсер...


Title: Re: Парсинг форума
Post by: Joker007 on May 29, 2018, 12:41:04 PM
python фреймворки scrapy, grab. Но если вам просто мониторить пару веток то достаточно воспользоваться готовыми сервисами


Title: Re: Парсинг форума
Post by: ronaldinio on May 30, 2018, 05:21:11 AM
Удобнее всего nodejs с модулем puppetteer.

Спасибо за наводку, поверхностно посмотрел, хорошая вещь. Но для начала надо подучить JavaScript, потом NodeJS и только потом puppetteer. Что ж, будем учить)


Title: Re: Парсинг форума
Post by: ronaldinio on May 30, 2018, 05:32:58 AM
Какой язык программирования можете порекомендовать для этих целей? Понятно дело что практически любой язык может это делать, но делать это быстро и удобно не всякий.

Любой, какой вы знаете. Ну и изучение языка программирования занимает некоторое время (от нескольких месяцев, лет, вся жизнь), возможно проще заказать парсер...

У меня для поверхностного изучения языка, чтобы уже начать писать что-то полезное, обычно уходит около месяца. Лучше подучу язык, сам напишу, тем более что возможно придется что-то постоянно дописывать, плюс получу полезный навык.


Title: Re: Парсинг форума
Post by: ronaldinio on May 30, 2018, 06:12:31 AM
python фреймворки scrapy, grab. Но если вам просто мониторить пару веток то достаточно воспользоваться готовыми сервисами

Много слышал положительного о Питоне, не никогда не смотрел. Вот сейчас стоит делема JavaScript или Python ) Скорее всего JavaScript т.к. puppetteer заточен на управление браузером, соответственно можно автоматизировать кое-какие вещи, не знаю может ли Питон делать это так же хорошо.


Title: Re: Парсинг форума
Post by: #Cryptoman on May 30, 2018, 06:23:47 AM
Много слышал положительного о Питоне, не никогда не смотрел. Вот сейчас стоит делема JavaScript или Python ) Скорее всего JavaScript т.к. puppetteer заточен на управление браузером, соответственно можно автоматизировать кое-какие вещи, не знаю может ли Питон делать это так же хорошо.

Что бы парсить форум, ни управление браузером, ни сам браузер не нужен...


Title: Re: Парсинг форума
Post by: Skorpo on June 06, 2018, 04:31:16 PM
Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь


Title: Re: Парсинг форума
Post by: soniclord on June 07, 2018, 03:34:31 AM
Если нужно по мелочи сделать - сделаю. Опыт в парсинге огромен.


Title: Re: Парсинг форума
Post by: #Cryptoman on June 07, 2018, 04:24:02 PM
Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь

Как-то делал сложный парсинг, это скан форума, с перекидыванием сообщений в другой форум, с сохранением бб тэгов и имен пользователей (префикс к именам добавлял). Более того, парсер отслеживал и свежие сообщения, и их тоже перекидывал.
Если задаться целью, можно спарсить и этот форум, в другой форум, будет полная копия. (это конечно сложно, но возможно)

Code:
загоняем в гугл - php query парсинг
Если с пхп знаком, научиться делать парсинг сайтов с несложной разметкой можно за один день.

Так же писал сканер книг, помнится было книг на жестком диске где-то на пол терабайта, сканер должен был по некоторым признакам найти автора книги, название книги, и обложку если есть, ну и если попался дубль, убрать его. Разметка была не одинаковой, была масса адаптаций сканера.

Парсить можно всё, включая сайты где автоподгрузка через аякс(например твиттер) запросы или "вебсокеты" (например вконтакте).


Title: Re: Парсинг форума
Post by: Jaga-Jaga on June 07, 2018, 07:54:33 PM
Может у кого есть опыт парсинга подобно этому форуму,  ибо сам форум далеко не совершенен для отслеживания нужной информации. Какой язык программирования можете порекомендовать для этих целей? Понятно дело что практически любой язык может это делать, но делать это быстро и удобно не всякий.
Парсить можно на любом языке, но выбирать лучше тот язык который используется в проекте чтобы сделать парсер модулем проекта. Если нужно для веб проекта то скорее всего вам больше подойдет PHP или Java.


Title: Re: Парсинг форума
Post by: unixty on June 10, 2018, 11:16:49 PM
python фреймворки scrapy, grab. Но если вам просто мониторить пару веток то достаточно воспользоваться готовыми сервисами

Много слышал положительного о Питоне, не никогда не смотрел. Вот сейчас стоит делема JavaScript или Python ) Скорее всего JavaScript т.к. puppetteer заточен на управление браузером, соответственно можно автоматизировать кое-какие вещи, не знаю может ли Питон делать это так же хорошо.

Если нужна автоматизация, то для питона, да в принципе и для йавы есть selenium, недавно наткнулся, библиотека для тестеров, но возможна реализация автоматизации. Подскажите, если еще есть такого же рода библиотеки под пайтон, которыми удобнее пользоваться.


Title: Re: Парсинг форума
Post by: Joe1987 on June 11, 2018, 02:02:27 PM
Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь

Как-то делал сложный парсинг, это скан форума, с перекидыванием сообщений в другой форум, с сохранением бб тэгов и имен пользователей (префикс к именам добавлял). Более того, парсер отслеживал и свежие сообщения, и их тоже перекидывал.
Если задаться целью, можно спарсить и этот форум, в другой форум, будет полная копия. (это конечно сложно, но возможно)

Code:
загоняем в гугл - php query парсинг
Если с пхп знаком, научиться делать парсинг сайтов с несложной разметкой можно за один день.

Так же писал сканер книг, помнится было книг на жестком диске где-то на пол терабайта, сканер должен был по некоторым признакам найти автора книги, название книги, и обложку если есть, ну и если попался дубль, убрать его. Разметка была не одинаковой, была масса адаптаций сканера.

Парсить можно всё, включая сайты где автоподгрузка через аякс(например твиттер) запросы или "вебсокеты" (например вконтакте).
Тоже через пыху парсил. Работаю в конторе, которая парсит с ~6000 сайтов интернет-магазинов товары для последующей выгрузки в соц сети типа вк, ок и в файлы эксель, цсв


Title: Re: Парсинг форума
Post by: KsaAZaks on June 14, 2018, 12:47:16 PM
php или python. Вообще python для такой работы лучше всех подходит, но php легче в освоении


Title: Re: Парсинг форума
Post by: flashdix on June 17, 2018, 07:23:23 AM
php или python. Вообще python для такой работы лучше всех подходит, но php легче в освоении
Питон легче в освоении на порядок :).

Мой набор для парсинга на никсах:python beautifulsoap, wget, curl, grep. Можно вообще без питона, только баш и последние три программы.


Title: Re: Парсинг форума
Post by: aldorexxx on June 18, 2018, 10:47:24 AM
Расскажите писал кто нибудь ботов для парсинга?
И если писали то на чем писали JavaScript?


Title: Re: Парсинг форума
Post by: kzv on June 18, 2018, 08:30:48 PM
Расскажите писал кто нибудь ботов для парсинга?
И если писали то на чем писали JavaScript?


А второе сообщение в топике прочитать не але?


Title: Re: Парсинг форума
Post by: Xtc on June 19, 2018, 09:00:19 PM
Я не уверен что Cloudflare даст просто так парсить большие объемы


Title: Re: Парсинг форума
Post by: #Cryptoman on June 20, 2018, 01:41:17 AM
Я не уверен что Cloudflare даст просто так парсить большие объемы

А кто запрещает вам использовать прокси сервера и эмуляторы браузера с поддержками кук?


Title: Re: Парсинг форума
Post by: kzv on June 20, 2018, 03:51:23 AM
Клауд это маркетинговое говно для веб школоты.
Все что делает клауд это запускает при первом заходе простейший яваскрипт с таймером. Типо проверка, что заходит браузер, а не робот лол. Все остальные вызовы проходят через чутка допиленный нгинкс.


Title: Re: Парсинг форума
Post by: ronaldinio on June 23, 2018, 11:07:03 PM
Всем спасибо за советы. В итоге написал парсер на VBA Excel, неделя на изучение, 3 недели на написание кода. Самый большой плюс VBA Excel это не нужно заморачиваться с базами данных, когда нужно что то быстро написать на "коленке" и структурировать информацию, тем более что Excel хорошо знаю, но не был знаком с VBA. Парсинг немного тормознутый, но недавно узнал что есть поддержка selenium. Для более серьезного парсинга, надо будет изучать что то посерьезней.


Title: Re: Парсинг форума
Post by: crypt0pank on June 27, 2018, 09:30:05 PM
Всем спасибо за советы. В итоге написал парсер на VBA Excel, неделя на изучение, 3 недели на написание кода. Самый большой плюс VBA Excel это не нужно заморачиваться с базами данных, когда нужно что то быстро написать на "коленке" и структурировать информацию, тем более что Excel хорошо знаю, но не был знаком с VBA. Парсинг немного тормознутый, но недавно узнал что есть поддержка selenium. Для более серьезного парсинга, надо будет изучать что то посерьезней.
Изучай C#, сможешь парсить всё что угодно, там куча библиотек, часто нужны управляемые браузеры, чтобы кликнуть куда-то, чтобы popup открылся, или прокрутить вниз, чтобы страничка прогрузилась, там можно подключить несколько управляемых браузеров (тот же селениум есть на C#, мозилла, хромиум, он же хром, стандартный IE - на нём вообще свой рабочий браузер можно за 2 минуты наваять - я это на ютубе увидел, с тех пор дружу с C#, хотя я на GeckoFX лучше за 5 минут сделаю), конечно ещё лучше C или C++, это прям вообще круто, но мне вот лень их изучать, я C# знаю, там плюшек много слишком.


Title: Re: Парсинг форума
Post by: TheMadman1992 on June 28, 2018, 12:10:31 AM
Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь
Доброго времени суток! А как надо ставить вопрос? И чем плох nodejs с модулем puppetteer? Если Вы в этом разбираетесь может просветите?


Title: Re: Парсинг форума
Post by: kzv on June 28, 2018, 05:17:36 AM
Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь
Доброго времени суток! А как надо ставить вопрос? И чем плох nodejs с модулем puppetteer? Если Вы в этом разбираетесь может просветите?


Не обращайте внимания это бот-флудер. Его высер подойдет к любой теме с вопросом.
Кстати, можете заработать мерит от модератора если будете искать таких долбоебов и репортить на них.


Title: Re: Парсинг форума
Post by: Anrxa on June 29, 2018, 04:58:50 PM
Как уже выше ответили парсить можно чем угодно, главное регулярки или удобные фреймворки.
Node.js мне например нравится тем, что он асинхронен. Парсить в несколько потоков как по мне удобнее указывая concurrency у промисов нежели руками создавать потоки в синхронных языках.


Title: Re: Парсинг форума
Post by: fxpc on June 29, 2018, 05:41:35 PM
Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь
Доброго времени суток! А как надо ставить вопрос? И чем плох nodejs с модулем puppetteer? Если Вы в этом разбираетесь может просветите?


Не обращайте внимания это бот-флудер. Его высер подойдет к любой теме с вопросом.
Кстати, можете заработать мерит от модератора если будете искать таких долбоебов и репортить на них.

Чё-то мне нихуа не накидывают мерита. 8)


Title: Re: Парсинг форума
Post by: mig38 on July 09, 2018, 07:25:28 AM
Тоже через пыху парсил. Работаю в конторе, которая парсит с ~6000 сайтов интернет-магазинов товары для последующей выгрузки в соц сети типа вк, ок и в файлы эксель, цсв

а зачем чужие товары с чужих магазинов выкладывать в свой ВК ?


Title: Re: Парсинг форума
Post by: Jaga-Jaga on July 09, 2018, 01:57:35 PM
Всем спасибо за советы. В итоге написал парсер на VBA Excel, неделя на изучение, 3 недели на написание кода. Самый большой плюс VBA Excel это не нужно заморачиваться с базами данных, когда нужно что то быстро написать на "коленке" и структурировать информацию, тем более что Excel хорошо знаю, но не был знаком с VBA. Парсинг немного тормознутый, но недавно узнал что есть поддержка selenium. Для более серьезного парсинга, надо будет изучать что то посерьезней.
IMHO, в общем случае более целесообразно парсить и сохранять в базу данных, а не в Excel.


Title: Re: Парсинг форума
Post by: #Cryptoman on July 11, 2018, 10:51:49 AM
Тоже через пыху парсил. Работаю в конторе, которая парсит с ~6000 сайтов интернет-магазинов товары для последующей выгрузки в соц сети типа вк, ок и в файлы эксель, цсв
а зачем чужие товары с чужих магазинов выкладывать в свой ВК ?

В линках на товар, если есть рефки, разница между диллером и тобой идет тебе в карман.
И порой чистая прибыль может составлять миллионы рублей за месяц.


Title: Re: Парсинг форума
Post by: thereader on August 06, 2018, 12:20:33 PM
У меня для поверхностного изучения языка, чтобы уже начать писать что-то полезное, обычно уходит около месяца. Лучше подучу язык, сам напишу, тем более что возможно придется что-то постоянно дописывать, плюс получу полезный навык.

Чувак, если ты это сделаешь, то дай знать. Я тоже такой хочу - есть парочка идей.


Title: Re: Парсинг форума
Post by: #Cryptoman on August 07, 2018, 04:57:04 AM
Чувак, если ты это сделаешь, то дай знать. Я тоже такой хочу - есть парочка идей.

Что он сделает? Пиши свои идеи.


Title: Re: Парсинг форума
Post by: thereader on August 07, 2018, 12:02:20 PM
Что он сделает? Пиши свои идеи.

Давно хочу приложение на мобайл с форумом. Адаптивное. Например. Или отслеживание постов, набирающих тренд. 


Title: Re: Парсинг форума
Post by: peter_walstein on July 24, 2019, 10:29:00 PM
Если нужно по мелочи сделать - сделаю. Опыт в парсинге огромен.

Ищем народ на парсинг различных источников, оплата сдельная, либо возможно постоянная.
peter_walstein@protonmail.com


Title: Re: Парсинг форума
Post by: TechPriest on July 26, 2019, 11:15:03 AM
Может у кого есть опыт парсинга подобно этому форуму,  ибо сам форум далеко не совершенен для отслеживания нужной информации. Какой язык программирования можете порекомендовать для этих целей? Понятно дело что практически любой язык может это делать, но делать это быстро и удобно не всякий.

Я давно еще писал парсер новых тем, по баунти. Я писал на Шарпе, проблем не возникало. Серверную часть делал на Питоне.

Форум довольно простой, думаю любой язык подойдет.


Title: Re: Парсинг форума
Post by: andy_pelevin on July 26, 2019, 05:58:15 PM
....

Я давно еще писал парсер новых тем, по баунти. Я писал на Шарпе, проблем не возникало. Серверную часть делал на Питоне.

Форум довольно простой, думаю любой язык подойдет.

Делать парсер новых тем на БТТ нет необходимости. Достаточно оформить подписку и сообщения о новых темах будут автоматом отправляться на вашу почту.
В правом вернем углу есть строчка команд " new topic  |  post new poll  |  mark read  |  notify " Достаточно нажать на " notify " и Вы в курсе всех новых тем.


Title: Re: Парсинг форума
Post by: TechPriest on July 31, 2019, 06:04:02 AM
Делать парсер новых тем на БТТ нет необходимости. Достаточно оформить подписку и сообщения о новых темах будут автоматом отправляться на вашу почту.
В правом вернем углу есть строчка команд " new topic  |  post new poll  |  mark read  |  notify " Достаточно нажать на " notify " и Вы в курсе всех новых тем.

Благодарю за помощь, но проблема в том, что через мейл нужно и страницу с мылом держать открытой, обновлять ее постоянно, да и телефона хорошего для оповещения тогда не имел. А бот раз два, и прислал уведомление на компьютер. И быстродействие у него повыше, я ведь пробовал и ваш вариант.


Title: Re: Парсинг форума
Post by: andy_pelevin on August 05, 2019, 07:10:40 AM
..... проблема в том, что через мейл нужно и страницу с мылом держать открытой, обновлять ее постоянно,....

И эта задачка тоже легко решается,... Существует много расширений для браузеров, которые мониторят почту.  Я, к примеру, пользуюсь "Checker Plus for Gmail", но есть и другие...


Title: Re: Парсинг форума
Post by: TechPriest on September 16, 2019, 06:54:23 PM
..... проблема в том, что через мейл нужно и страницу с мылом держать открытой, обновлять ее постоянно,....

И эта задачка тоже легко решается,... Существует много расширений для браузеров, которые мониторят почту.  Я, к примеру, пользуюсь "Checker Plus for Gmail", но есть и другие...


Расширениям не очень доверяю, кто его знает что туда записали девы. Проще написать свой небольшой скрипт, загрузить на свой сервер и быть спокойным.


Title: Re: Парсинг форума
Post by: RuBro on September 17, 2019, 03:22:33 AM
С парсерами и постерами вы ошиблись форумом, юзайте более профильный форум с готовыми решениями https://zennolab.com (https://zennolab.com/discussion/forums/poleznye-stati-istorii-uspexa.154/)


Title: Re: Парсинг форума
Post by: andy_pelevin on September 18, 2019, 06:58:51 AM
С парсерами и постерами вы ошиблись форумом, юзайте более профильный форум с готовыми решениями https://zennolab.com (https://zennolab.com/discussion/forums/poleznye-stati-istorii-uspexa.154/)

За "зенку" надо платить,... Есть бесплатный софт с таким же функционалом, называется BrowserAutomationStudio. Вот их форум: https://community.bablosoft.com/category/7/browserautomationstudio



Title: Re: Парсинг форума
Post by: CryptoGirl.y on November 25, 2019, 02:29:13 PM
Может кому-нибудь нужно приложение парсинга сайта или сайтов - обращайтесь. Готова написать за небольшую сумму, ибо только получаю навыки и опыт в программировании.
Пишу на Джаве.
Также пишу несложные приложения на Андроид.


Title: Re: Парсинг форума
Post by: laiyskylone on November 26, 2019, 05:25:51 AM
У одного легендарного ака с англ ветки видел в подписи разработанное неофициальное API форума с помощью которого можно получить различную инфу ники, айдшники, подпись да и вообще всю полную инфу по профилю единсвтенное, что написано оно на С# было поэтому не знаю на сколько будет удобно с ним работать


Title: Re: Парсинг форума
Post by: ligor on November 26, 2019, 02:28:36 PM
У одного легендарного ака с англ ветки видел в подписи разработанное неофициальное API форума с помощью которого можно получить различную инфу ники, айдшники, подпись да и вообще всю полную инфу по профилю единсвтенное, что написано оно на С# было поэтому не знаю на сколько будет удобно с ним работать
А чем С# неудобен  ??? Если только не консольное приложение - тогда просто неудобно.
А так просто парсятся страницы на любом языке программирования. Ничего сложного.


Title: Re: Парсинг форума
Post by: CryptoGirl.y on November 28, 2019, 03:28:46 AM
У одного легендарного ака с англ ветки видел в подписи разработанное неофициальное API форума с помощью которого можно получить различную инфу ники, айдшники, подпись да и вообще всю полную инфу по профилю единсвтенное, что написано оно на С# было поэтому не знаю на сколько будет удобно с ним работать
Наверное вы про это: https://bitcointalk.org/index.php?topic=154131.0
Очень оно старое. Точно не помню что там у меня было, но мне оно не подошло, пришлось писать свое приложение. Я делала парсинг последних созданных тем в разных ветках, в первую очередь для ветки Альткоины, что бы не пропустить новую монету для майнинга. А то там каждый день по 15-20 новых тем(иной раз и больше) создавалось и их быстро "угоняли" на следующие страницы, где они терялись и всплывали лишь тогда, когда монету уже поздно было майнить )